データマイニング班10回目は実験課題設定例についての解説&討論
オープンキャンパス関連のタスクが急増。ギリギリになってからタスク振られるのは嫌なので先週確認してたのだけど結果的には「〆切数日前になってから依頼が届いた」という悲しい現実。しくしく。
お昼ご飯のドライカレーは大学生協弁当ですが、割と美味しいのでデフォルトメニューになって欲しい。たまにドライカレーを無性に食べたくなるのだけど、いまいち良い場所が見つかってない(そもそも食べれる場所が良く分からない)のだよな。
ちなみに仁義なき戦い(【ほこ×たて@ie_001】絶対に居場所を特定するストーキングツール vs 絶対に居場所を特定させない設定(仮)【偵察編】)が勃発しつつあるらしい。自分だったら相手のサーバを落とすかなぁ(酷)。ま、「結果的には死んでるのと同じ」にもいろいろあるだろうし。笑い男してくれるのを希望しておこう。
データマイニング班の10回目は以下のような中身でした。
- 記事紹介1: Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選
- 記事紹介2: (有料) 不自然言語処理 -枠に収まらない「リアルな」言語処理, 情報処理学会誌, 2012, 目次一覧
- 記事紹介3: リンクするデータ(Linked Data)-広がり始めたデータのクラウド, 情報処理学会誌, 2011, 目次一覧
- 補足: DBpedia Japanese, 例: 琉球大学
- 記事紹介4: Wikipediaマイニング:Wikipedia研究のサーベイ, 2009, 情報処理学会論文誌データベース
- 記事紹介5: 利用者の好みをとらえ活かす-嗜好抽出技術の最前線, 2007, 目次一覧
- ステージ4-1: テキストマイニング課題設定例, 課題例1, Twitter上のテキスト文を対象とした2値分類学習に基づく未知語自動収集, その他(Mindmap)
- ステージ3-3: 潜在的意味インデキシング(LSI)入門
今日はテキスト・マイニングを中心とした事例紹介をしつつ、1つ具体的&詳細な課題設計例として「TLから未知語収集してみる」を説明。堀川くんが研究用途でieなTLを収集していることもあって、現時点でも約48万件程度のツイートがあるので、そこからデータセットを構築する前提での事例として未知語収集できれば、その後の解析にも役立つという話。一人で10数万ツイートしてるとかいう噂の学生のことを考えると収集できてるのはほんの一部かも。
他案はタイトルだけで「TLからのAA抽出/イベント検出/場所推定/テンプレ判定/bot判定/クラスタ抽出」、「就職活動向け募集要項から関連企業抽出/企業マッピング」、「MovieLensから類似ユーザ抽出/ユーザクラスタリング/映画クラスタリング/推薦推定」、「レポート自動採点のための誤字脱字判定/文脈の繋がり正しさ判定/説明不足箇所検出/コピー発見/トピック分類によるレポート作成支援」、「プログラムの綺麗さ判定/バグ推定」、「レビュー文解析」とあれこれ例示しつつ、相談討論タイム。何かしら琴線に触れたら良いなということであれこれ列挙してみた訳ですが、結果的にはその中から選んだ人が多いのかな。2値分類や多クラス分類、回帰、クラスタリングとこれまでざっと見てきた例だけでも問題設定次第で面白いことできるということを少しでも感じてもらえてたら何より。
仮説や問題設定がヨロシクなくて何度も手戻りになったり想定外の問題に打ち当たることもあるけど、それ含めて実験なので自分がやりたいことやろう。「無理矢理感もあるけど一応のテーマは決まりつつあるか。来週が楽しみ^^ #←の「^^」の意味を推定せよ」は推定されてしまったらしい。
TL内での相談がメインだったっぽいですが、全員(グループあり)のテーマ・イメージを決定。自然言語処理入門としてLSI(潜在的意味解析)な例紹介を軽く挟み、残り時間は具体的な問題設定に落とし込むための検討時間に。次週からは進捗確認がメインになります!