データマイニング班の最終発表プログラムが確定

Aug 2, 2013 データマイニング班日記

どこもかしこも期末試験やその対策なのか日中はTLが静かですね。データマイニング班の成果発表日プログラムがとりあえず確定しました。

実験3・データマイニング班最終発表
日時: 8/8(木), 10:00-12:00
会場: 5階会議室（予定）

10:00-10:03, 説明
10:05-10:22, 安楽匡晃, Twitteerで顔文字を見つけよう！
10:22-10:39, 比嘉健太, SVMを用いてツイートから顔文字を検出する
10:39-10:56, 松田朱子＆稲嶺周平, Twitter上のテキスト文から分類器を用いて人名判定
10:56-11:13, 森田周作, 業務内容から見た企業の分類
11:13-11:30, 松茂良滉＆増田憲亮, 教育上よろしくないツイートの分類
11:30-11:47, 大城美和, ツイート上での同一人物分類
11:47-11:55, アンケート等回収？

中身的には「機械学習ツール（scikit-learn）を使ってみよう」が実体に近い。やりたいタスクをどのように特徴ベクトルに落とし込み、データとして用意し、学習結果を眺めながらデータセットの構築し直し／教師データ増やし（正事例負事例増やし）／パラメータチューニングとか頑張ってくれてるようです。学生実験的には作業を繰り返すところまでは求めてなくて、一度自身が考えた方法で実験した結果を観察＆考察するところまでやってくれたらGJ。途中段階でも構わないので、どういう問題にどう取り組もうとしたのか、どこまで手をつけれたのかを第三者に伝わるように発表してくれという形で要求しています。

データセットの生データがTwitterに偏りがちのようですが、これは研究室の堀川くんが研究用にnakarx/ieのTLを蓄積し続けててそれなりに分量が揃っているから。他にもあれこれ使ってもらっても良いんですが、今回は多くはそちらに流れました。やってて楽しいかもしれないけど、逆にツイート特有の難しさもありますね。

最終発表はどうなるかしら。