データマイニング班12回目はTAからの宿題チェックしながら進捗確認
今日は学生相談対応、ミニゼミ、実験とあれこれ詰まった一日でした。
ミニゼミは山内くん。KES実験周りの落としどころに目処が付いた状態なので、今後の方向性についてどういうストーリー(背景、問題意識、そこに対する切り口や仮説、検証方法)が考えられるかを討論してました。MovieLensなデータセットだとちょっとやりたいことにそぐわなくなりつつあるけど、別途調整中のデータセットでなんとかなると良いのだが。
データマイニング班の12回目は以下のような中身でした。
- 宿題: 「共起」の概念を自テーマに導入する際のメリット・デメリット検討
- 進捗確認
- Tips: 特徴ベクトルの重み付け例(バイナリ、正規化、TFIDF値)
先週からプロジェクトとしての推進がメインになってるので、今日も基本は進捗確認しながらコメント指導するぐらいです。ただ先週はTAからの宿題が出てたこともあって、「共起の概念を自身のテーマに導入する際のメリット・デメリット」を検討してもらった結果報告もしてもらいました。やや時間取られますが比較的汎用的に使える概念(言語処理特有の話ではない)ではあるので時間かけるだけの価値もあるでしょう。
Tipsでは代表的な特徴ベクトルとしてこれまでに紹介してきた「属性毎の出現回数」に加えて、0/1のバイナリベクトル、正規化ベクトル、TFIDF値を用いたベクトルを軽く紹介。