データマイニング班8回目は教師無し学習&自然言語処理入門
暑い日差しの中橋向こうでの会議があったため朝から汗だくでした。若干曇り気味でもあったし午前中なら日傘無しでも良いかなと考えたのが間違い。宜野湾農工大からだと素直に日傘持つ方が正解か。
午前中〜お昼過ぎまでずっと会議で昼食時間があまり取れず、通り道の中央食堂で手っ取り早く頂きました。いい具合に空き始めててあちこちでキャッキャウフフ(高性能フィルタリングによりそれ以外は聞こえないし見えない)してるのを耳にしながら食事を終えて実験準備。いくつか誤りを見つけて修正してたものの、まだ残っててあたふたする羽目に。ま、そいうのも含めて実験のお楽しみということで。
終了後はここ最近の実験でやってることやコードが良く分からないという学生らへのヘルプで、一応なんとか読めるぐらいにはなったのかな。少しずつで良いからできることを増やしていこう〜。
データマイニング班の8回目は以下のような中身でした。
- 記事紹介: 研究用にニコニコ動画のコメント約300GBを公開 (ニコニコインフォ)
- 宿題(Level 5: パラメータの及ぼす影響を観察したい)チェック
- scikit-learn チュートリアル 2.2.4: Unsupervised learning: seeking representations of the data
- ステージ2-4: クラスタリング、3次元グラフ描画演習
- ステージ3-1: 自然言語処理入門: N-gramモデル + 出現回数による文書ベクトル生成
- 宿題: Level 6: クラスタリングについての検討
8週目で教師あり学習(識別 classification、回帰 regression)、教師無し学習(クラスタリング clustering)と代表的な所を例題使いながら実際に触ってみるところまでは一通り終わりました。これでステージ2の機械学習概観が終わり。って、本当はデータマイニング概観のつもりだったんですが、scikit-learn に慣れてもらうことを重視することに変更したのでこういう結果に。
残りの週は、自然言語処理入門を例題的に触ってみるのをオプションに盛り込みつつ、本題としては「分類/回帰/クラスタリング」でどういうことがやれるか、どういう問題設計に落とし込めるかという視点で討論的にやってみるのもありかしら。学生個々人orグループ組ませて何かやってみたいことやらせる、というのもありだとは思うんだけど、どうしよう。