子供科学人材育成事業・サイエンスリーダー育成講座(AIの先生になろう!) day3

Share on:

[ day1 | day2 | day3 ]

全6日間プログラムのうち半分が終わりました。6日間の内、最終日は合同での成果発表会なのと、全6日間が「8月に3日間、1ヶ月後に3日間」と変わった日程なので、後半4,5日目はそもそもどれだけ覚えてるかという話もあるし、後半からしか参加できない受講生もいるとのことで、実質的な内容は今日までの前半3日間で終わりになるんじゃないかと想像します。9月からの2日間は、復習しながら発表資料の作成が主題にならざるをえないかなと。

今日の内容は、2日目の時点では「誰かが数値化したデータ(正確には、受講生らが適当にプロットしたデータ)」を前提として機械学習を適用してみて傾向を眺めるという話を踏まえ、「実際の現場では対象をうまく数値化する必要がある」という話に突入。グループを「顔画像」「風景画像」「文章」の3つに分け、各々TAサポート付きで数値化の仕方や、前処理の有無で何が変わるかを観察してみたりという一日でした。

観察しながらわかったこと・疑問点等をgoogle documentで整理させていたのですが、一部を抜粋するとこんな感じです。

入力データ作りの手法(担当:文章)
形態素解析
 自然言語のテキストデータから対象言語の文法や辞書と呼ばれる単語の品詞などの情報に基づき、形態素の列に分割し、それぞれの形態素の品詞を判別する作業
 例)私は今日 1時まで起きていた
   私 / は / 今日 / 1時 / まで / 起きて / いた

Ngram
文字Ngram N=2
 例)私は今日 1時まで起きていた
   私は は今 今日 日1 1時 時ま まで で起 起き きて てい いた
Bag of words
メリット
 構造がシンプル
デメリット
 語順が考慮されていない
 単語の意味的な表現を理解しない
前処理前後の変化
 精度が0.94から0.92に下がって速度が1051秒から719秒に上がった
今日の講座のまとめ
・色々な素材をデータにする手法を調べよう
 どの方法にも長所と短所があるため、その時々で使い分けが必要
・前処理前後の変化
 前処理をしたことによって特徴が失われ精度が下がることがある

TAサポート付きだけど、これ、高校生自身が「見て、聞いて、書いた文章」だよ。凄い。

「この講座で知ったことを教えてあげよう(3人以上)」という宿題も出ました。受講生ら自身が他にやりたいこともあるだろうし、負担にならない程度で復習にもなって良いですね。

次回、残り3日間は9月16日〜18日になります。

P.S.
受講生らによる参加ブログ(受講生が会場で書いたのを、主催側が記事として編集してる)の方に1日目のブログが公開されてました。どこまで楽しんでくれたかなー。