【かくりつてきこうばいこうかほう】
確率的勾配降下法(SGD) とは?
💡 全部見てから判断するのではなく、サンプルを見てすぐ動く即断即決型の学習法
📌 このページのポイント
ランダムに選ぶとブレブレにならないの?
たしかに1回1回の更新にはノイズが入るからジグザグに動くよ。でもたくさん更新を繰り返すと平均的には正しい方向に進むんだ。しかもそのノイズのおかげで、浅い谷(局所最適解)にハマらず、もっと良い答えを見つけられることもあるんだよ。
ミニバッチSGDっていうのも聞くけど、それは何なの?
AdamとかAdaGradとか色々あるけど、SGDはもう古いの?
SGDもまだまだ現役なんだね!
そうだよ。シンプルだけど奥が深い手法で、理論的な解析もしやすいから研究のベースラインとしてもよく使われているんだ。最適化手法の基本中の基本だから、しっかり理解しておくといいよ。
まとめ:ざっくりこれだけ覚えればOK!
「確率的勾配降下法」って出てきたら「データをランダムに少しずつ見て、すばやく学習を進める方法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Stochastic Gradient Descent」 = 確率的な勾配降下
💬 「Stochastic」は確率的・ランダムという意味で、データをランダムに選ぶことからこの名前がついたんだよ