完成度の高い野菜炒めを高い精度で再現するためには訓練が必要
今日はデータマイニング班と個別ゼミな一日。
個別ゼミは堀川くん。先週の個別ゼミ&週ゼミでの討論を踏まえた個別ゼミということもあって、より具体的なストーリー構築&実験計画の設計について検討できたか。これでデータセット2つ目の方で実験を数回、データセット1つ目の方で実験1回やってストーリー立てた考察するための結果を出せるんじゃないかと期待。
自炊の方はここ2ヶ月弱の自炊生活で一番完成度が高かった気がする。野菜炒めskill++したのか、ご飯炊きskill++したのか、材料の問題なのか良く分からないけど。汁物は差し入れで、豆腐ハンバーグも温めただけなので除外するけど、ご飯と野菜炒めだけでもかなり旨かった。
データマイニング班9回目の内容は以下の通り。
- 振り返り: supervised learning / unsupervised learning / semi-supervised learning
- 記事紹介
- Level 5 確認
来週以降は進捗確認がメイン。問題設計は来週までが目安。ストーリーをつくれたら実装に入ろう。必ずしも全てを実装しきる必要はないですが、残り5週間程度で簡易実験をやれるところまで(何かしらのアウトプットを出すところまで)頑張ろう。
- テーマ設計例: Twitter上のテキスト文を対象とした2値分類学習に基づく未知語自動収集
- その他の例: HG/tnal/problem-design-examples.mm
テーマ設計例やMindmapを参考に、目的/目標/アプローチ/特徴ベクトルの作り方/データセット準備/学習の進め方/実験計画等について検討&取り組んでください。(可能な範囲でok)
- 必ずしもテキスト処理を前提にする必要はありません。
- 自然言語処理入門: タームを素性とする特徴ベクトル生成の例 [ 英語編 | 日本語編 ] (文分割 + トークン化 + ステミング + ストップワード除去)
- (続)課題: Level 5 (テーマ検討継続) *来週には全員テーマ決定予定
- (早い人) 課題: Level 6 (課題取り組み/進捗確認)
実験では前回から代表的なテキスト文書の処理方法を紹介していますが、実際にそれらを使うかどうかはお任せ。自然言語に限らず画像/動画/音声等の情報源にしても良いし、何かしら数値化されたデータでもok。結果的にはテキスト文を選択する人が多いのだけど、データセットを用意していることとコード例を示していることが大きいのかな。データセットについては「お試し」なら数十件分作るところからやれば良いだけなので、あまり関係無さそうではあるのだけど。
自然言語処理入門の2回目は、単語単位で特徴抽出する事例の紹介。英語と日本語版のコードを用意してますが、どちらも基本的には「文書を単文に分割、文を単語に分割、単語の活用形を基本形に直す、不要な語を除外してコードブックを作成」という流れ。Twitter/Timelineだと@含めたユーザ名の扱いや、URLの処理とかあれこれもっと追加したくなりそうですが、一般的な処理に留めています。