【こうばいしょうしつもんだい】

勾配消失問題 とは?

💡 「伝言ゲームで声が消える」ように、深い層ほど学習シグナルが届かなくなる問題
📌 このページのポイント
勾配消失問題 出力層 隠れ層 3 隠れ層 2 隠れ層 1 入力層 ← 逆伝播(勾配の流れ) ← 1.0 0.3 0.09 0.003 勾配≈0 学習停滞! 勾配の大きさ(バーの太さ=勾配の強さ) 深い層ほど勾配が小さくなり、学習が進まなくなる
勾配消失問題 ― 深いネットワークの学習課題
ひよこ ひよこ

勾配消失問題ってどういうこと?

ペンギン先生 ペンギン先生

ニューラルネットの学習って、出力の誤差を後ろから前に伝えて重みを調整するんだけど、この誤差信号が層を遡るたびにどんどん小さくなっちゃうんだよ。伝言ゲームで声がだんだん小さくなって最後は聞こえなくなるイメージだね

ひよこ ひよこ

なんで小さくなるの?

ペンギン先生 ペンギン先生

逆伝播では各層の勾配が掛け算で伝わるんだ。昔よく使われたシグモイド関数は、微分しても最大で0.25にしかならない。0.25を10回掛けると約0.000001になる。つまり10層もあれば、入力側の層にはほぼゼロの勾配しか届かないんだよ

ひよこ ひよこ

それでどうやって解決したの?

ペンギン先生 ペンギン先生

大きく3つの方法があるよ。まずReLU活性化関数。正の入力にはそのまま勾配1を通すから消失しにくい。次にResNet(残差接続)。層をスキップして勾配を直接伝えるショートカットを作った。最後にBatchNorm。各層の値を正規化して勾配が安定するようにしたんだ

ひよこ ひよこ

この問題が解決されたからディープラーニングが流行ったの?

ペンギン先生 ペンギン先生

まさにそう。2012年のAlexNetがReLUを使って画像認識で圧勝したのが転機だったね。それまでは「層を深くしたいけど学習できない」って壁があったんだ。この壁を壊せたからこそ、100層とか1000層のネットワークが作れるようになった

ひよこ ひよこ

今でも勾配消失って起きるの?

ペンギン先生 ペンギン先生

いい質問だね。実はベテランでも意外と知らないんだけど、Transformerでも勾配消失は完全には解決してないんだよ。LayerNormの位置がPre-NormかPost-Normかで学習の安定性が全然違う。GPT系がPre-Norm(層の前に正規化)を採用してるのは、Post-Normだと層が深くなると勾配が不安定になるから。あと逆に勾配が爆発的に大きくなる「勾配爆発問題」もあって、Gradient Clippingで対処するのがお作法だよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「勾配消失問題」って出てきたら「層が深すぎて学習の信号が奥まで届かなくなる問題」と思えればだいたいOK!
📖 おまけ:英語の意味
「Vanishing Gradient Problem」 = 消えゆく勾配の問題
💬 1991年にホッホライターが博士論文で詳しく分析したのが有名だよ。彼はこの問題を解決するためにLSTMを発明したんだ
← 用語集にもどる