次元の呪いや過学習をイメージできるのが山場の一つ

Share on:

データマイニング班の目標の一つが、

[ 解説記事: 怪奇!! 次元の呪い – 識別問題、パターン認識、データマイニングの初心者のために ]

を読んで、ある程度のイメージを得られること。これまでの流れとしては、
・簡単なモデルを例示し、
・そのモデルを仮説としたときの適切なパラメータを求めたい。
・そのために損失関数を定義し、
・その関数が最小となるパラメータをOLS/GDで求める。
・これだけでは「そもそも仮定としたモデルがどの程度妥当なのか」を説明できない。
・それ以前にデータセットにはエラーやノイズが交じる。
・データセットを信用しすぎて学習した状態を過学習と予備、それをどうにか避けたい。
・代表的なアプローチがペナルティ項の導入や、交差検証でチューニングしたモデルに対するテスト。

みたいな話をしてきてて。これらの振り返りや、説明が足りていない部分を補う意図で、毎年、前述の解説記事を読ませています。割と好評。