データマイニング班9回目は半教師あり学習&自然言語処理入門2

Share on:

m_2013060612463851b0061e29ea3

実験しながら、というか今回の実験準備は数日前に終わってたので準備時間自体は殆ど無かったのですが、逆にそのために安心しきって個人面談/何でも相談/ちょっと重めのトラブル対応とそれ以外のことで詰まった一日でした。相談してくれる分には可能な範囲で対応します(時間的に余裕なければ素直に断るor延期する)のでお気軽に〜。

お昼で学食行くのも時間的に厳しそうなときは予め昼食買ってから出勤するか、カップ麺なりで済ますことが多いですが、ここ最近は週に一度ぐらいsubwayさんを食べてる感じ。朝に買ったやつを職場で冷蔵しといて食べる直後にレンジで温めるだけでも割と美味しいままで嬉しい。まだまだ県内には店舗少ないけど、丁度行きがけに通る場所にあるのでとても嬉しい。


データマイニング班の9回目は以下のような中身でした。

scikit-learnを使った機械学習の演習は前回で終わりの予定だったんですが、一覧を眺めてたらラベル有無が混在するデータセットをうまく使おうとする半教師あり学習の例もあったので、不公平な比較ではありますが「半教師あり vs 教師あり vs 教師なし」で結果にどういう違いが出て来るかを目視しながら振り返ることを含めた演習としてやることにしました。英語の勉強も少しやれるし。

自然言語処理入門の方は、前回のn-gramモデルな特徴ベクトルに合わせる形で代表的なというか素朴な特徴表現方法としてタームモデルな特徴ベクトル(英語編, 日本語編)の例。前回は省略した文分割を追加しつつ、単語分割+基本形への変換+ノイズ除去といった良く見られる処理の実装例を紹介する形に。

NLTKはインストールした時点で関連コーパスやらが最初からインストールされてたと思ってたんですが、実はとっくの昔のことで忘れてただけらしくnltk.download()であれこれ使ってるモデルやら個別にダウンロードが必要なのをすっかり忘れてました。

来週以降は2つの方向、
(1)学生個々人orグループ単位で問題設計考えながら実際に取り組むことをメインとしつつ、自然言語処理の演習を少し盛り込む形。
(2)こちらで設計した(全員同一の)問題について実際に取り組んでもらう形。
あたりを想定していたのですが、学生との相談の結果取りあえず(2)でやってみることに。ということで、来週はデータマイニングの例題を用意する予定です。事例紹介はそこそこいろんな事例を紹介して見ているつもりですが、あれはまだ機械学習勉強する前の話でもあったし、本当にざっくばらんにイメージだけを軽く説明しただけではあったので、「そんな話もあったような」ぐらいの記憶になっちゃってるのかも。ということで、(多数の)事例紹介はタイミング的に後回しにした方が良さげか。