データマイニング班5回目は具体的な評価の例
献血16回目記念?だかでタンブラーを貰えました。何となく欲しい気がしつつ自分で買うまででもないなという状況だったのでちょっと嬉しいです。使うかどうかは謎なんですが。
データマイニング班の5回目は以下のような中身でした。
- 記事紹介: データマイニングコンペティションサイト Kaggle にも Deep Learning ブームがきてるかと思ったのでまとめる
- Level 2 (PDF)について報告ベースの補足解説。
- 事例紹介: 情報推薦を題材に評価方法の検討、協調フィルタリング概要
- ドキュメンテーション+ユニットテスト: FizzBuzz + docstring + doctest
- (英語の勉強を兼ねた) scikit-learn チュートリアル 2.2.1: Datasets setting and estimator object
- 手動オープンテスト: estimator.fit + estimator.score + np.random.permutation
- 宿題: Level 3: digitsデータセットに対し手動3分割交差検定してみる (digits, np.random.permutation)(PDF)
- Tips: リスト内包表記の補足(PDF)
詰め込み過ぎの気もしますが、時間的には予定通り早めに終われました。
宿題報告についてはコードを皆で眺めながら「マジックナンバー使うな」「リスト初期化しよう」「コメント書こう」とか補足。で、リスト内包表記についても補足する予定だったんですが、忘れてたのでメールでの補足をしておくことに。
開発的には「ドキュメンテーション(docstring)+ユニットテスト(doctest)+交差検定(のためのランダムなインデックス生成を通した分割と、平均スコア算出)」ぐらいの内容ですね。
来週はscikit-learnのチュートリアル続きを予定していますが、一つずつ丁寧に進めていくか、かいつまんでclassification/regression/clusteringの例を触ってイメージを掴むことを目標にするかぐらいで悩んでます。細かいこと気にせずにとっとと「やりたい具体例」について取り組んでもらう方向もありなんですが。何かしらデータセット構築して、分類学習させてから特徴抽出方法を見直すとか。