【とうきてきでこーでぃんぐ】
投機的デコーディング とは?
💡 下書きは小さい子に任せて、仕上げチェックはエースにお願い
📌 このページのポイント
なんでLLMの文章生成って遅いの?
投機的デコーディングはどうやって速くするの?
下書きが間違ってたらどうなるの?
間違いが見つかった時点でそこから先を捨てて、大型モデルが正しいトークンを出し直すよ。数学的にうまく設計されていて、最終的な出力の確率分布は大型モデルだけで生成した場合と完全に一致するんだ。つまり品質は落ちないよ
いつでも速くなるの?
ドラフトモデルの予測精度が高いほど効果が大きいよ。文脈が明確な定型的な文章では採用率が高くなって大幅に速くなるけど、創造的な文章だと予測が外れやすくて効果が薄れることもある。最近はモデル内部の浅い層をドラフトに使うSelf-Speculative Decodingなんて手法も研究されているね
まとめ:ざっくりこれだけ覚えればOK!
「投機的デコーディング」って出てきたら「小さいAIの下書きを大きいAIが高速チェックする技」と思えればだいたいOK!
📖 おまけ:英語の意味
「Speculative Decoding」 = 投機的復号
💬 Speculativeは「投機的な・推測の」という意味。CPUの投機的実行と同じ発想で、当たりを予測して先に進めておくんだよ