【おもみげんすい】

重み減衰(Weight Decay) とは?

💡 大げさな主張をちょっと抑えて、バランスのいい答えを出す調整弁
📌 このページのポイント
Weight Decay:重みの大きさを抑えて過学習を防ぐ Weight Decayなし 重みが大きくばらつく → 過学習 Weight Decayあり 重みが小さく均整 → 汎化 λ × ‖w‖² 損失に加算 損失関数 = タスク損失 + λ × Σw² λ(ラムダ)が大きいほど強く減衰。定番は 0.01〜0.0001 SGD では L2 正則化と等価。Adam では AdamW を使用
Weight Decay:損失にL2ノルムを加えて重みが膨らむのを抑制
ひよこ ひよこ

Weight Decayって、重みがどんどん小さくなっちゃうってこと?

ペンギン先生 ペンギン先生

そうだよ。学習の途中で重みを少しずつ縮める仕組みで、これによって過学習を防ぐ効果があるんだ。

ひよこ ひよこ

なんで重みを小さくすると過学習が防げるの?

ペンギン先生 ペンギン先生

重みが大きいとモデルが訓練データの細かいノイズまで覚えすぎてしまうんだよ。重みを抑えると「だいたいこんな感じ」という穏やかな予測になって、汎化しやすくなるんだ。

ひよこ ひよこ

L2正則化と同じって言われたんだけど、違うの?

ペンギン先生 ペンギン先生

SGDを使う場合は数学的に等価なんだけど、Adamのような最適化手法ではL2正則化をそのまま足してもWeight Decayと同じにならないんだよ。

ひよこ ひよこ

じゃあAdamのときはどうするの?

ペンギン先生 ペンギン先生

AdamWというオプティマイザが登場したんだ。重みの更新ステップとは別にWeight Decayを独立して適用することで、正しく正則化できるように改良されているんだよ。

ひよこ ひよこ

λ(ラムダ)って何?

ペンギン先生 ペンギン先生

どれくらい減衰させるかを決める係数だよ。大きくしすぎるとモデルが弱くなりすぎるし、小さすぎると正則化が効かない。0.01〜0.0001くらいが定番なんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Weight Decay」って出てきたら「重みを小さく保って過学習を防ぐ正則化」と思えればだいたいOK!
📖 おまけ:英語の意味
「Weight Decay」 = 重み減衰
💬 Weight(重み)がDecay(減衰・腐食)するというイメージから来ているよ。毎ステップ重みを少しずつ縮小させることで、特定の重みが異常に大きくなるのを防いでいるんだよ。
← 用語集にもどる