【アダム】
Adam(最適化アルゴリズム) とは?
💡 学習率を自動チューニングする「賢い下山ガイド」──迷わず最短ルートで谷底へ
📌 このページのポイント
Adamって、普通の勾配降下法と何が違うの?
具体的にはどうやって学習率を調整しているの?
Adamは2つの情報を記憶しているよ。1つ目は勾配の移動平均(一次モーメント)で、これは「最近どっちの方向に進んでいたか」という情報。2つ目は勾配の二乗の移動平均(二次モーメント)で、「最近どのくらい勾配が揺れていたか」という情報だよ。勾配が安定している方向には大きく進み、揺れが大きい方向には慎重に進むんだ。
ハイパーパラメータはどう設定するの?
Adamが最強なら他のオプティマイザーは要らないんじゃないの?
AdamWってどういう改良なの?
📖 おまけ:英語の意味
「Adaptive Moment Estimation」 = 適応的モーメント推定
💬 「Adaptive Moment」の略でAdamだよ。勾配のモーメント(慣性のようなもの)を適応的に使うことから名付けられたんだ