確率的勾配降下法（SGD）とは何ですか？

学習データの中からランダムに1つまたは少数のデータを選んでパラメータを更新する最適化手法。通常の勾配降下法より高速に学習を進められる。

確率的勾配降下法（SGD）のポイントは？

全データではなくランダムに選んだ少量のデータで勾配を計算し、パラメータを更新する手法。通常の勾配降下法に比べて1回の更新が高速で、大規模データにもスケールしやすい。ミニバッチSGDとして、数十〜数百件のデータをまとめて処理するのが現代の主流。ノイズが加わることで局所的な最適解から抜け出しやすくなるメリットもある

【かくりつてきこうばいこうかほう】

確率的勾配降下法（SGD）とは？

💡 全部見てから判断するのではなく、サンプルを見てすぐ動く即断即決型の学習法

📌 このページのポイント

全データではなくランダムに選んだ少量のデータで勾配を計算し、パラメータを更新する手法
通常の勾配降下法に比べて1回の更新が高速で、大規模データにもスケールしやすい
ミニバッチSGDとして、数十〜数百件のデータをまとめて処理するのが現代の主流
ノイズが加わることで局所的な最適解から抜け出しやすくなるメリットもある

通常の勾配降下法とSGDの収束経路の違い

ひよこ

確率的勾配降下法って、普通の勾配降下法と何が違うの？

ペンギン先生

普通の勾配降下法は全部のデータを見てから1回パラメータを更新するんだけど、確率的勾配降下法はランダムに1つか少数のデータだけ見てすぐ更新するんだよ。テストの採点に例えると、全員分まとめて採点してから傾向を分析するか、1人ずつ見るたびに方針を微調整するかの違いだね。

ひよこ

ランダムに選ぶとブレブレにならないの？

ペンギン先生

たしかに1回1回の更新にはノイズが入るからジグザグに動くよ。でもたくさん更新を繰り返すと平均的には正しい方向に進むんだ。しかもそのノイズのおかげで、浅い谷（局所最適解）にハマらず、もっと良い答えを見つけられることもあるんだよ。

ひよこ

ミニバッチSGDっていうのも聞くけど、それは何なの？

ペンギン先生

1つだとノイズが大きすぎるし、全データだと遅い。その中間で「32個」「64個」みたいにまとめて処理するのがミニバッチSGDだよ。GPUの並列計算と相性がいいから、現代のディープラーニングではほぼこの方式が標準になっているね。

ひよこ

じゃあ今使われてるのはほとんどミニバッチ方式なんだね！学習率との関係ってあるの？

ペンギン先生

すごく重要な関係があるよ。学習率が大きいと更新幅が大きくなって発散するし、小さすぎると収束が遅い。SGDでは学習率を徐々に小さくする「学習率スケジューリング」がよく使われるんだ。ウォームアップで最初は小さくして、途中で大きくして、最後にまた小さくするコサインスケジューリングなんかも有名だよ。

ひよこ

AdamとかAdaGradとか色々あるけど、SGDはもう古いの？

ペンギン先生

実はそうでもないんだ。Adamは収束が速いけど、最終的な精度ではSGD+モメンタムの方が良い場合もあると報告されているよ。画像認識のResNetなんかの論文でもSGDが使われていることが多い。最近はAdamで大まかに学習してからSGDで仕上げるハイブリッド手法も研究されているんだよ。

ひよこ

SGDもまだまだ現役なんだね！

ペンギン先生

そうだよ。シンプルだけど奥が深い手法で、理論的な解析もしやすいから研究のベースラインとしてもよく使われているんだ。最適化手法の基本中の基本だから、しっかり理解しておくといいよ。

まとめ：ざっくりこれだけ覚えればOK！

「確率的勾配降下法」って出てきたら「データをランダムに少しずつ見て、すばやく学習を進める方法」と思えればだいたいOK！

📖 おまけ：英語の意味

「Stochastic Gradient Descent」＝確率的な勾配降下

💬 「Stochastic」は確率的・ランダムという意味で、データをランダムに選ぶことからこの名前がついたんだよ

← 用語集にもどる

確率的勾配降下法（SGD） とは？

確率的勾配降下法（SGD）とは？