重み減衰（Weight Decay）とは何ですか？

損失関数に重みの二乗和（L2ノルム）を加えることで、モデルの重みが大きくなりすぎるのを抑え、過学習を防ぐ正則化手法。学習のたびに重みをわずかに小さく「減衰」させることが名前の由来。

重み減衰（Weight Decay）のポイントは？

損失関数にL2ノルム項を追加してモデルの複雑化を防ぐ。L2正則化とほぼ同義だが、最適化アルゴリズムによって挙動が異なる。SGDではL2正則化と等価。Adamでは等価でなく、AdamWで正しく実装される。λ（ラムダ）という係数でどれだけ減衰させるか調整する

【おもみげんすい】

💡 大げさな主張をちょっと抑えて、バランスのいい答えを出す調整弁

📌 このページのポイント

Weight Decay：損失にL2ノルムを加えて重みが膨らむのを抑制

ひよこ

Weight Decayって、重みがどんどん小さくなっちゃうってこと？

ペンギン先生

そうだよ。学習の途中で重みを少しずつ縮める仕組みで、これによって過学習を防ぐ効果があるんだ。

ひよこ

なんで重みを小さくすると過学習が防げるの？

ペンギン先生

重みが大きいとモデルが訓練データの細かいノイズまで覚えすぎてしまうんだよ。重みを抑えると「だいたいこんな感じ」という穏やかな予測になって、汎化しやすくなるんだ。

ひよこ

L2正則化と同じって言われたんだけど、違うの？

ペンギン先生

SGDを使う場合は数学的に等価なんだけど、Adamのような最適化手法ではL2正則化をそのまま足してもWeight Decayと同じにならないんだよ。

ひよこ

じゃあAdamのときはどうするの？

ペンギン先生

AdamWというオプティマイザが登場したんだ。重みの更新ステップとは別にWeight Decayを独立して適用することで、正しく正則化できるように改良されているんだよ。

ひよこ

λ（ラムダ）って何？

ペンギン先生

どれくらい減衰させるかを決める係数だよ。大きくしすぎるとモデルが弱くなりすぎるし、小さすぎると正則化が効かない。0.01〜0.0001くらいが定番なんだ。

まとめ：ざっくりこれだけ覚えればOK！

「Weight Decay」って出てきたら「重みを小さく保って過学習を防ぐ正則化」と思えればだいたいOK！

📖 おまけ：英語の意味

「Weight Decay」＝重み減衰

💬 Weight（重み）がDecay（減衰・腐食）するというイメージから来ているよ。毎ステップ重みを少しずつ縮小させることで、特定の重みが異常に大きくなるのを防いでいるんだよ。