勾配消失問題とは何ですか？

ディープニューラルネットワークの学習時に、逆伝播で勾配が層を遡るにつれて極端に小さくなり、入力に近い層がほとんど学習できなくなる現象。ReLUやResNet、BatchNormなどの技術で克服された。

勾配消失問題のポイントは？

誤差逆伝播法で勾配が掛け算で伝わるため、層が深いほど勾配が指数関数的に小さくなる。シグモイド関数の微分の最大値が0.25しかないため、層を重ねると急速にゼロに近づく。ReLU活性化関数・ResNetのスキップ接続・BatchNormが三大解決策。この問題の克服がディープラーニング革命（2012年〜）を可能にした

【こうばいしょうしつもんだい】

勾配消失問題とは？

💡 「伝言ゲームで声が消える」ように、深い層ほど学習シグナルが届かなくなる問題

📌 このページのポイント

誤差逆伝播法で勾配が掛け算で伝わるため、層が深いほど勾配が指数関数的に小さくなる
シグモイド関数の微分の最大値が0.25しかないため、層を重ねると急速にゼロに近づく
ReLU活性化関数・ResNetのスキップ接続・BatchNormが三大解決策
この問題の克服がディープラーニング革命（2012年〜）を可能にした

勾配消失問題 ― 深いネットワークの学習課題

ひよこ

勾配消失問題ってどういうこと？

ペンギン先生

ニューラルネットの学習って、出力の誤差を後ろから前に伝えて重みを調整するんだけど、この誤差信号が層を遡るたびにどんどん小さくなっちゃうんだよ。伝言ゲームで声がだんだん小さくなって最後は聞こえなくなるイメージだね

ひよこ

なんで小さくなるの？

ペンギン先生

逆伝播では各層の勾配が掛け算で伝わるんだ。昔よく使われたシグモイド関数は、微分しても最大で0.25にしかならない。0.25を10回掛けると約0.000001になる。つまり10層もあれば、入力側の層にはほぼゼロの勾配しか届かないんだよ

ひよこ

それでどうやって解決したの？

ペンギン先生

大きく3つの方法があるよ。まずReLU活性化関数。正の入力にはそのまま勾配1を通すから消失しにくい。次にResNet（残差接続）。層をスキップして勾配を直接伝えるショートカットを作った。最後にBatchNorm。各層の値を正規化して勾配が安定するようにしたんだ

ひよこ

この問題が解決されたからディープラーニングが流行ったの？

ペンギン先生

まさにそう。2012年のAlexNetがReLUを使って画像認識で圧勝したのが転機だったね。それまでは「層を深くしたいけど学習できない」って壁があったんだ。この壁を壊せたからこそ、100層とか1000層のネットワークが作れるようになった

ひよこ

今でも勾配消失って起きるの？

ペンギン先生

いい質問だね。実はベテランでも意外と知らないんだけど、Transformerでも勾配消失は完全には解決してないんだよ。LayerNormの位置がPre-NormかPost-Normかで学習の安定性が全然違う。GPT系がPre-Norm（層の前に正規化）を採用してるのは、Post-Normだと層が深くなると勾配が不安定になるから。あと逆に勾配が爆発的に大きくなる「勾配爆発問題」もあって、Gradient Clippingで対処するのがお作法だよ

まとめ：ざっくりこれだけ覚えればOK！

「勾配消失問題」って出てきたら「層が深すぎて学習の信号が奥まで届かなくなる問題」と思えればだいたいOK！

📖 おまけ：英語の意味

「Vanishing Gradient Problem」＝消えゆく勾配の問題

💬 1991年にホッホライターが博士論文で詳しく分析したのが有名だよ。彼はこの問題を解決するためにLSTMを発明したんだ

← 用語集にもどる

勾配消失問題 とは？

勾配消失問題とは？