【こうばいしょうしつもんだい】
勾配消失問題 とは?
💡 「伝言ゲームで声が消える」ように、深い層ほど学習シグナルが届かなくなる問題
📌 このページのポイント
勾配消失問題ってどういうこと?
なんで小さくなるの?
逆伝播では各層の勾配が掛け算で伝わるんだ。昔よく使われたシグモイド関数は、微分しても最大で0.25にしかならない。0.25を10回掛けると約0.000001になる。つまり10層もあれば、入力側の層にはほぼゼロの勾配しか届かないんだよ
それでどうやって解決したの?
この問題が解決されたからディープラーニングが流行ったの?
今でも勾配消失って起きるの?
まとめ:ざっくりこれだけ覚えればOK!
「勾配消失問題」って出てきたら「層が深すぎて学習の信号が奥まで届かなくなる問題」と思えればだいたいOK!
📖 おまけ:英語の意味
「Vanishing Gradient Problem」 = 消えゆく勾配の問題
💬 1991年にホッホライターが博士論文で詳しく分析したのが有名だよ。彼はこの問題を解決するためにLSTMを発明したんだ