【エルエスティーエム】
LSTM とは?
💡 大事なことだけ覚えておく「AIの記憶術師」
📌 このページのポイント
ゲートって何をしてるの?
情報の「門番」だと思えばいいよ。忘却ゲートは「この記憶はもう不要だから忘れよう」、入力ゲートは「この新しい情報は覚えておこう」、出力ゲートは「今必要な情報はこれだ」と判断する。この仕組みで大事な情報を長く記憶し、不要な情報を捨てられるんだ。
普通のRNNと具体的に何が違うの?
普通のRNNは全ての情報が一つの隠れ状態に混ぜ込まれるから、古い情報がどんどん薄まるんだ。LSTMにはセル状態という「情報のハイウェイ」があって、ゲートが許可すれば情報が劣化せずにずっと流れ続けられる。だから長い系列でも昔の情報を使えるんだよ。
おもしろい!今はLSTMよりTransformerが主流なの?
LSTMって今でも使われてるの?Transformerに完全に置き換えられた?
GRUっていうのもあるって聞いたけど?
GRU(Gated Recurrent Unit)はLSTMを簡略化したモデルで、ゲートが3つから2つに減っている分、パラメータが少なくて学習が速い。多くのタスクでLSTMと同等の性能を出せるから、「まずGRUで試して、性能が足りなければLSTMに切り替える」というアプローチが実務的だよ。実はLSTM vs GRUの性能差は小さくて、タスクやデータによってどちらが勝つかは変わるんだ。
まとめ:ざっくりこれだけ覚えればOK!
「LSTM」って出てきたら「ゲートで情報の取捨選択をして長期記憶を保てるようにした、RNNの改良版だな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Long Short-Term Memory」 = 長短期記憶
💬 「Long(長期の)」「Short-Term Memory(短期記憶)」で、短期記憶を長く保持できるという意味。RNNが苦手だった長期記憶の問題を解決するよ