【こうばいばくはつ】
勾配爆発 とは?
💡 坂道を転がるボールが加速しすぎて制御不能になるイメージ
📌 このページのポイント
勾配爆発って、学習中に何が爆発するの?
ニューラルネットワークの学習では、誤差を逆方向に伝えてパラメータを調整するんだけど、そのときの「どれくらい調整するか」の値(勾配)が異常に大きくなることがあるんだ。数値がどんどん膨れ上がって、最終的にNaN(数値じゃない値)になって学習が壊れるんだよ。
なんでそんなことが起きるの?
逆伝播では各層の勾配を掛け算で伝えていくんだ。もし各層の勾配が1.5倍ずつだとすると、50層あれば1.5の50乗で約63万倍になる。これが勾配爆発の仕組みだよ。層が深いほど、そしてRNNのように長い系列を扱うほど起きやすくなるんだ。
どうやって防ぐの?
勾配消失問題っていうのも聞くけど、関係あるの?
実際の現場で勾配爆発が起きたらどうやって気づくの?
Transformerでも勾配爆発って起きるの?
まとめ:ざっくりこれだけ覚えればOK!
「勾配爆発」って出てきたら「学習中に勾配が巨大になりすぎてパラメータが吹っ飛ぶ問題」と思えればだいたいOK!
📖 おまけ:英語の意味
「Exploding Gradient Problem」 = 勾配爆発問題
💬 「Exploding」は爆発するという意味で、勾配の値が爆発的に増大する様子からこう呼ばれるんだよ