2013年度後期データマイニング班の発表会が終了

Share on:

m_2014021015384252f873f29652e m_2014021016031952f879b71ef50 m_2014021016203752f87dc553f9f

先日告知してましたが、データマイニング班の発表会が終了。打ち上げは時間的に食事会ではなくお茶会することに。オハコルテなタルトケーキをメインに、ソレイユのサンドで小腹を満たしながら感想聞いたりしてました。ちなみにソレイユのサンドイッチ(エビカツバーガー/バジルチキンサンド/ローストビーフサンド)は1つ200円ですが、どこぞの100円バーガー2個食べるぐらいならこれ一つの方が味も量もソレイユの方が圧倒的に旨くてオススメ。

データマイニング班自体は2013年度から始まった実験班で、前期が1回目、今回で2回目。1回目の反省点or悩んでる点として挙げている

  • Pythonの勉強をチュートリアル丸投げっぱなしはNG(プログラミング苦手な人への指導はやはり必要)。
  • データセット/データ/サンプル/特徴ベクトル等々の用語を整理した説明が不足していた感(相手は機械学習についての知識はゼロ)。
  • 個々にプロジェクト活動し始める時期が遅すぎたかも(1ヶ月+αぐらい)。
  • 機械学習自体については「ツールとして使えるレベル」を想定してましたが、いくつか代表的or基本的なアルゴリズムを勉強&実装する方向とどちらが良いのかは今も悩み中。
  • 同様に「そもそもツールを機械学習に限定していいのか」も少し迷ってます(制約の意味でこれはそのまま続ける予定ですが)。

上記の点は基本的には今回も一緒か。

一応テコ入れはしてて、Pythonプログラミング指導は(前開と比較すると)具体的にタスク/例題設定しながら演習してて、割と力入れてやりました。

また、機械学習周りは問題設定という側面で絞り込んで4回(分類、回帰、クラスタリング、半教師あり)に絞ってみました。前回はもう一つ二つ話(例えばここのshrinkageとか)を盛り込んでましたが、今回はoverfitting(前編 | 後編)とパラメータ調整を加えるだけにしてそれ以外は省略。

という増減により結果として後半5,6週ぐらいでのテーマ設計&開発自体は同じぐらいの時間を取れているのですが、逆に言うと全く増えていないので学生からするとやり足りなかった(時間が足りなさすぎた)というのが大きいっぽい。こちらとしては失敗して構わないから一度最後まで通してやって、細かくブラッシュアップするという方式にしたいのだけど、私の説明不足もあってそこはあまり伝わってないな。学生からすると一つずつの手続きをなるたけ高品質に仕上げて次に進みたいというのがあるようで、その気持ちも理解はできます。が、たかだか数週間しかない学生実験(卒業研究のように平日まるまる使えるわけじゃない)で一つずつ高品質でやるのは限界があるわけで。という側面はもっと相互理解できるようにしないとな。

一方で前回挙げてなかった新しい反省点/気になる点としては、

  • 自然言語処理に拘ってるわけじゃないけど、例題示すぐらいならノイズ処理も含めて代表的な処理をもう少し用意した方が良いのでは。(一方で時間的にはこれ以上盛り込むのも悩ましい)
  • データセット作ることを考えると2名以上のグループで分業しないと消化不良感高過ぎないか。
  • 進化計算班時代のようにアルゴリズムを一つに限定してしまって、その代わりに具体的な中身の理解までする方向にした方が良いのか。
  • 上記同様、進化計算班のように「クライアントと開発者」の役割を導入するべきか。(クライアントとして依頼すること、開発者として聞き出しながら妥当な問題設定に落とし込むこと、の2つを同時進行でやる方式)

という所か。後半2つについては進化計算班でのやり方がそれだけ良かった部分を盛り込んだ方が良さそうだなというお話。進化計算班自体は2005年に初めた実験班でしたが、あれ、一度作り込んでからは大枠弄らずにそのまま続けてたんだよな。それだけ真面目に力入れて作り込んだという話でもあるし、それだけの私自身の理解が深かったから一度でベストな形に落とし込めていたという話でもあるかもしれない。