【もめんたむ】

モメンタム(最適化手法) とは?

💡 転がるボールに勢いをつけて、谷底まで一気に駆け下りる
📌 このページのポイント
通常SGD vs モメンタム 局所最適 大域最適 SGD (振動・局所解に落ちる) モメンタム (慣性で局所解を通過) モメンタムはβ(慣性係数)×前回速度 + 勾配 で更新方向を決める v = β·v + (1-β)·∇L / θ = θ - α·v
SGDとモメンタムの最適化経路の比較イメージ
ひよこ ひよこ

モメンタムって普通の勾配降下法と何が違うの?

ペンギン先生 ペンギン先生

通常の勾配降下法は毎回の勾配だけで進む方向を決めるんだけど、モメンタムは直前の移動方向も引き継ぐんだよ。坂を転がるボールが加速し続けるイメージで、一度動き始めると慣性で進み続けるんだ。

ひよこ ひよこ

慣性があると何が嬉しいの?

ペンギン先生 ペンギン先生

二つ嬉しいことがあるよ。一つは収束が速くなること。同じ方向への勾配が続くと速度が積み重なって大きく進めるんだ。もう一つは局所最適解や鞍点から抜け出しやすくなること。慣性の力で浅い谷を乗り越えられることがあるよ。

ひよこ ひよこ

モメンタムの強さはどうやって決めるの?

ペンギン先生 ペンギン先生

βというハイパーパラメータで調整するよ。0〜1の値で、一般的には0.9がよく使われるんだ。β=0.9だと直前の速度を90%引き継ぐ計算になるよ。大きいほど慣性が強くなるけど、大きすぎると行き過ぎてしまうこともあるんだ。

ひよこ ひよこ

Adamってモメンタムと関係あるの?

ペンギン先生 ペンギン先生

密接に関係しているよ。Adamはモメンタム(1次モーメント)とRMSpropの適応的学習率(2次モーメント)を組み合わせた手法なんだ。だからモメンタムはAdamの半分を構成する核心的なアイデアといえるよ。

ひよこ ひよこ

ネステロフモメンタムって聞いたことがあるんだけど、普通のモメンタムと違うの?

ペンギン先生 ペンギン先生

少しだけ賢くしたバージョンだよ。通常のモメンタムは現在地の勾配で速度を更新するけど、ネステロフ版は『慣性で進んだ先の勾配』を計算してから速度を調整するんだ。少し先読みするぶん収束が安定しやすいんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「モメンタム」って出てきたら「勾配降下法に慣性を加えて収束を速める工夫」と思えればだいたいOK!
📖 おまけ:英語の意味
「Momentum」 = 運動量・慣性
💬 物理学の「運動量(momentum)」から来ていて、ボールが坂を転がる際に加速し続けるイメージそのままの名前だよ
← 用語集にもどる