全体ゼミ4回目(深層学習3章〜4章)が終了

Share on:

複雑研ゼミは深層学習 (機械学習プロフェッショナルシリーズ)の輪読に突入して2回目。今日は「第3章 確率的勾配降下法」と「第4章 誤差逆伝播法」。いくつか飛ばしちゃってる所があるのが勿体無いのだけど、場所によっては「個別に勉強してね」というやり方もありっちゃありなんだよな。そもそも論としては「シンプルな誤差逆伝播法そのものを手計算してみたら」と思うのだけど、やってる人はいなさげ。それも含めて「全体ゼミで何を学ぶか」ではあるのだけど、深層学習やるというのならこの辺りは実体験した方が良いんじゃないかなぁと思いつつ、後で突っつくぐらいにしとこう。

以下は発表聞きながらメモした疑問点。ページ番号は本じゃなくてスライドなのでここでは無意味だな。

Q: 勾配降下法とは?
 p.4, 具体的に勾配はどう計算する?
 問題の規模が大きいとニュートン法が使えなくなるのは何故?
C: p.5, 数式はちゃんと書こう。(少なくとも独自記法はやめる)
 p.5, どのあたりが確率的?
 p.6, 「訓練データの収集と最適化の計算を同時進行で行うことができる」とは?
 p.7, 「各クラスの出現頻度が等しい場合は、同サイズのミニバッチを作るのが良い」そうじゃない場合は?
 p.8, テスト誤差はどう実施したら良い?
C: 図を書く時は軸の説明を
p.11, 正則化に「重み二乗和」以外にどんなものがある?
 重み減衰?
p.13, 具体的な「正規化」の例?
p.15, どう「複数のNNを組み合わせる」?(合議?)
p.16, 学習定数の決め方
 AdaGrad はどんな手法?
 1. 学習係数を大きい->小さい(アニーニング:焼き鈍し)
 2. 層毎に学習幅を調整
p.19, 重み初期化活性化関数(省略)

C: 分からない所は省略しない方が

>4章
p.30, n_k?
p.36, 具体的な計算例?
p.38, 計算機毎の定数ε?

ゼミ中のツッコミとしてはこれまでに出てきた概念との結びつけた質問したり、現時点ではまだ深掘りされてない(そもそもこの本で書かれてるか分からない)側面について質問したりする形で考えさせたり、討論させたりする形でイメージを形作らせてみています。教科書への脚注を追加してるというのが近いのかも。