データマイニング班7回目は自然言語処理入門とグループ討論
データマイニング班は今週から2週間ぐらいの予定でテーマ検討な週間です。その合間というか、余った時間を使って自然言語処理入門編をコードと共に示し、
- N-gramモデル + 出現回数による文書ベクトル生成
- 形態素を素性とする特徴ベクトル生成の例: 文分割 + トークン化 + ステミング + ストップワード除去
- Python による日本語自然言語処理
ぐらいのざっくりとした紹介。来週は英語編を示す予定ですが、デザインスクール終わった翌日になるので準備できてない可能性もあるな。ま、自然言語処理を使えという制約はなくて、ただの紹介だから後回しになっても問題無いだろうという判断ではあるのですが。
あと、テーマ検討をしやすくする目的で「目的/目標/アプローチ/特徴ベクトルの作り方/データセット準備/学習の進め方/実験計画」をどう考えたら良いかの例題として去年作成した資料を紹介したり。逆効果になってる可能性がなきにしもあらずですが、ま、無いよりは良いよねぐらいの気持ちで。
昨日書いたネタ出しも含めて頑張ってみてください。今日休んだ学生も(ニッコリ