今日の全体ゼミは過学習な話

Share on:

複雑研全体ゼミは前回怒ったからかほぼ遅刻者無し。でもうちの学生2名が担当にも関わらず無断欠席(もう夕方なんだけど何も連絡無し)という。しくしく。怒って欲しいなら怒るけどさ。そうじゃないならやることやって欲しいのだが。。

2.4節は担当者不在のため飛ばして、The Elements of Statistical Learningの2.5節に突入。やれそうになかったら2.4節をその場で皆で読もう〜という形でやるつもりだったんですが、次の人達が準備してくれてたのでそっちをやることに。話としては、2.3節でシンプルな予測モデル(最小二乗法、k近傍法)が出てきて、2.4節で統計的決定理論。これらのシンプルな方法に対する警鐘という位置付けっぽく、2.5節ではいわゆる次元の呪いな話が数式&グラフで解説されてました。という風にストーリーを想像して読もう(勉強)しよう。解説記事としては [ 前編 | 後編 ] あたりを読むと良いんじゃないかと。簡単にまとめると、理想的に必要な分量&質の学習データを準備できるならば理想的な精度が出せるのだけど、一般的にはそんなことはあり得ない。ビッグデータでもなんでもそうだけど、データ件数を多く集められたとしても多くの場合はデータに偏りがあったりノイズが少なくなかったりするため、データを過信し過ぎた予測モデルでは「事前に与えられたデータに対してはうまく回答できるが、未知データに対する精度が落ちてしまう」、というお話。具体的な話や一般的な対策は以下を眺めてみると良いでしょう。

シンプルなモデルを実装してみて、かついくつかのデータパターン用意してみて、実際に眺めて見ると理解し易いだろうとは思います。その意味で機械学習 はじめようシリーズ記事は秀逸。だから学生向けに紹介してみたのだけど、どのぐらいの人が手をつけてみてるかは良く分かりません。