データマイニング班10回目は実験課題設定例についての解説&討論

Share on:

m_2013061311491751b9332dcfb6a

オープンキャンパス関連のタスクが急増。ギリギリになってからタスク振られるのは嫌なので先週確認してたのだけど結果的には「〆切数日前になってから依頼が届いた」という悲しい現実。しくしく。

お昼ご飯のドライカレーは大学生協弁当ですが、割と美味しいのでデフォルトメニューになって欲しい。たまにドライカレーを無性に食べたくなるのだけど、いまいち良い場所が見つかってない(そもそも食べれる場所が良く分からない)のだよな。

ちなみに仁義なき戦い(【ほこ×たて@ie_001】絶対に居場所を特定するストーキングツール vs 絶対に居場所を特定させない設定(仮)【偵察編】)が勃発しつつあるらしい。自分だったら相手のサーバを落とすかなぁ(酷)。ま、「結果的には死んでるのと同じ」にもいろいろあるだろうし。笑い男してくれるのを希望しておこう。


データマイニング班の10回目は以下のような中身でした。

今日はテキスト・マイニングを中心とした事例紹介をしつつ、1つ具体的&詳細な課題設計例として「TLから未知語収集してみる」を説明。堀川くんが研究用途でieなTLを収集していることもあって、現時点でも約48万件程度のツイートがあるので、そこからデータセットを構築する前提での事例として未知語収集できれば、その後の解析にも役立つという話。一人で10数万ツイートしてるとかいう噂の学生のことを考えると収集できてるのはほんの一部かも。

他案はタイトルだけで「TLからのAA抽出/イベント検出/場所推定/テンプレ判定/bot判定/クラスタ抽出」、「就職活動向け募集要項から関連企業抽出/企業マッピング」、「MovieLensから類似ユーザ抽出/ユーザクラスタリング/映画クラスタリング/推薦推定」、「レポート自動採点のための誤字脱字判定/文脈の繋がり正しさ判定/説明不足箇所検出/コピー発見/トピック分類によるレポート作成支援」、「プログラムの綺麗さ判定/バグ推定」、「レビュー文解析」とあれこれ例示しつつ、相談討論タイム。何かしら琴線に触れたら良いなということであれこれ列挙してみた訳ですが、結果的にはその中から選んだ人が多いのかな。2値分類や多クラス分類回帰クラスタリングとこれまでざっと見てきた例だけでも問題設定次第で面白いことできるということを少しでも感じてもらえてたら何より。

仮説や問題設定がヨロシクなくて何度も手戻りになったり想定外の問題に打ち当たることもあるけど、それ含めて実験なので自分がやりたいことやろう。「無理矢理感もあるけど一応のテーマは決まりつつあるか。来週が楽しみ^^ #←の「^^」の意味を推定せよ」は推定されてしまったらしい。

TL内での相談がメインだったっぽいですが、全員(グループあり)のテーマ・イメージを決定。自然言語処理入門としてLSI(潜在的意味解析)な例紹介を軽く挟み、残り時間は具体的な問題設定に落とし込むための検討時間に。次週からは進捗確認がメインになります!