インターンシップ3日目
PC環境周りでのトラブルがあって我慢してもらう部分がありましたが、過学習まで含めた一つのストーリーを触れるところまでやれました。具体的には、
・最小二乗法と勾配降下法の特徴。(これは動作比較まではしてない)
・線形回帰を最小二乗法で実装。
・データ例で動作確認。
・改めてコードを振り返り、これだけからはどんなモデルが裏側にあるか分からないことの確認。(だからアルゴリズム自体の勉強が必要だというお話)
・多項式拡張で線形回帰でも非線形関係を表現できること。
・一方でモデルの表現能力を向上しすぎると、データセットに過剰適応(過学習)したモデルになりがちなこと。
・データセットの質と量を改善できるならした方が良い。
・アルゴリズム側の一つの工夫として、パラメータへのペナルティ項を導入するという話。
・交差検証でモデルの平均的な精度をみるのも一つの手。
ぐらいの話。手を動かしてるのは数箇所ぐらいですが、PythonとNumpyの基本的な使い方ぐらいをワークショップ的にやれたので良し。ここまでが授業での内容。この後で2〜3時間ぐらいを自習として、Python Machine Learningを勉強してもらいました。
明日は私の方で授業する時間は取れないので自習メインにやってもらい、最後に今週のサマリとしてのプレゼンをして貰います。どんな話をしてくれるのかな〜。