データマイニング班2回目が終了

Share on:

データマイニング班の2回目が終了しました。やっぱり無線LANの調子がよろしくないので、用意してもらったスイッチングハブを使いました。ちょっと悲しいけど、この調子だとデフォルトで用意した方が良さそう。

2回目の中身は、追加の環境設定(emacs使うならauto-complete.elぐらいは入れよう)と、事例紹介を2つした後はひたすらPythonチュートリアル。進捗具合的には来週もチュートリアルがメインですが、中だるみになりそうなので何かオプションを検討中。emacs推奨してるように見られてるっぽいですが、別にそんなことはなくてエディタでプログラミングするなら「インデント&自動補完ぐらいは必要だろう」ということで紹介してます。Aptana Studioとか統合環境使っても良いし。

事例紹介した一つ目はオントロジー辞書を使った興味抽出。Wikipediaから基礎情報+αを収集して、人手で修正するOntolopediaを使って辞書データを構築し、それを使って「通堂」好きな人は部分材料の「もやし」に反応するとか、「どういう関係性に興味を持ちやすいか」を検証してみたという話。

2つ目は、共起情報を使った情報検索への応用。一つの文の中に同時に出現する(=共起する)語を収集して傾向分析することで、直接は書かれていないが関連している語を自動補完して検索に役立てようという話。例えば大学というキーワードで検索すると、関連語として「ゼミ/科目/学科、、、」が得られ、直接大学というキーワードが含まれてない記事も検索できるというもの。

環境構築では、テキストではMacPortsを想定しているのですが、学生らの間ではhomebrewな人も多い用で、「片方で途中まで試した状態のまま別パッケージ管理ツールで試す」みたいなことをやりまくり、/usr/local/lib/, /opt/local/lib/ 等が混乱してて結果的に正常動作しないケースがあったっぽい。ま、頑張ってください。