情報工学実験 3 : データマイニング班

(注意)実験内容を煮詰めきれていないこともあり、行き当たりばったりになる可能性が高いです!
授業内容と方法

データの山を採掘することで「データの中に埋め込まれている(有用な)知識を発掘」することをデータマイニング(data mining)と呼ぶ。別の言い方では、データマイニングは、より良い意思決定をするために履歴データをうまく使って一般的な規則性を発見しようとする研究分野である。

データマイニングの手続きとしては、(1)対象領域の理解、(2)データの準備、(3)パターン(知識)の発見、(4)パターンの事後処理(可視化、解釈など)、(5)結果の活用、といった一連のステップを繰り返すことが多い。

今回の実験においては、scikit-learnによる機械学習を用いたチュートリアルを通してデータ・マイニングを概観する。 また、自然言語処理を導入した文書分類や類似文書検索といった例を基に、構造化されていないテキストデータから有用な情報を得るテキスト・マイニングにも踏み込む。

達成目標
  • バージョン管理(Mercurial)、ユニットテスト(unittest2)を用いて開発することができる。
  • データ・マイニングのプロセスを踏まえ、各手続きを自動化することで実験を効率良く進めることができる。
    • データセットがどのような背景・状況でどのように構築されたのかを解釈し、目的とするマイニングに必要なデータ(特徴/説明変数/素性)の取捨選択を検討/実施することができる。
    • 非構造化データに対し、マイニングに適したデータセットを検討し、構築することができる。
    • 属性選択&構造化されたデータセットに対し、データマイニングを適用することで得られた知識を可視化・解釈について検討/実施することができる。
  • 開発したプログラムを再利用可能な形で公開できる。
    • 実験再現に必要なプログラムやデータを整理して用意できる。
    • 実験を再現する手順をドキュメントとして用意できる。



ステージ1: 事例紹介, 環境構築, Pythonチュートリアル, ユニットテスト



ステージ2: データマイニング概観, チュートリアル



ステージ3: 自然言語処理入門



ステージ4: テーマ設計


参考文献・サイト