【もでるじょうりゅう】
モデル蒸留(知識蒸留) とは?
💡 大きな先生の知識を、小さな生徒に受け継がせる
📌 このページのポイント
- 大きなモデル(教師)の出力確率分布を「正解」として小さなモデル(生徒)に学習させる
- 生徒モデルは教師より小さいのに、同等に近い性能を発揮できる
- SLMの多くがこの手法で作られている
- 計算コストの削減とモデル展開の普及に貢献する
ペンギン先生、「モデル蒸留」ってどういう技術なの?
大きなAIモデル(教師モデル)が学んだ知識を、小さなモデル(生徒モデル)に受け継がせる学習手法だよ。化学の蒸留みたいに「知識のエッセンス」を抽出するイメージだね。
普通に同じデータで小さいモデルを学習させればいいんじゃないの?
良いポイントだよ!普通の学習だと「正解か不正解か」しか教えられないけど、蒸留では「教師モデルがどれだけ各答えを確信しているか」という確率分布を学ばせるんだ。これが重要で、ニュアンスまで受け継げるんだよ。
具体的にどんな場面で使われてるの?
蒸留したモデルはどれくらいの性能になるの?
うまく蒸留できれば、教師モデルの7〜9割の性能を10分の1以下のサイズで実現できることもあるよ。特定タスクなら教師と同等以上になることすらある。
それって革命的だね!コストも下がるし端末でも動くし、いいことずくめだね!
そうなんだよ。AIのコストと普及という意味で、モデル蒸留はSLM時代の核心技術のひとつになっているんだ。
まとめ:ざっくりこれだけ覚えればOK!
「モデル蒸留」って出てきたら「大きなAIの知識を小さなAIに受け継がせる技術」と思えばOK!
📖 おまけ:英語の意味
「Knowledge Distillation / Model Distillation」 = 知識蒸留 / モデル蒸留
💬 蒸留(Distillation)は液体を加熱して純粋なエッセンスを取り出す化学操作だよ。モデルの「知識のエッセンス」を小さなモデルに移し取るイメージだね