【もでるじょうりゅう】

モデル蒸留(知識蒸留) とは?

💡 大きな先生の知識を、小さな生徒に受け継がせる
📌 このページのポイント
モデル蒸留:大きなAIの知識を小さなAIへ 教師モデル Teacher Model 数千億パラメータ 高性能・大サイズ クラウド専用 知識の転移 出力確率分布で学習 生徒モデル Student Model 数十億パラメータ 端末でも動作 蒸留の効果 同等性能(教師の7〜9割)・サイズは10分の1以下・コスト大幅削減
大きな教師モデルの出力確率分布を「正解」として生徒モデルに学習させる
ひよこ ひよこ

ペンギン先生、「モデル蒸留」ってどういう技術なの?

ペンギン先生 ペンギン先生

大きなAIモデル(教師モデル)が学んだ知識を、小さなモデル(生徒モデル)に受け継がせる学習手法だよ。化学の蒸留みたいに「知識のエッセンス」を抽出するイメージだね。

ひよこ ひよこ

普通に同じデータで小さいモデルを学習させればいいんじゃないの?

ペンギン先生 ペンギン先生

良いポイントだよ!普通の学習だと「正解か不正解か」しか教えられないけど、蒸留では「教師モデルがどれだけ各答えを確信しているか」という確率分布を学ばせるんだ。これが重要で、ニュアンスまで受け継げるんだよ。

ひよこ ひよこ

具体的にどんな場面で使われてるの?

ペンギン先生 ペンギン先生

SLMの多くがこの手法で作られているよ。たとえば「GPT-4の知識をスマホで動く小さなモデルに移す」なんてことができる。DeepSeekのような高性能な小型モデルも蒸留を活用して作られているんだ。

ひよこ ひよこ

蒸留したモデルはどれくらいの性能になるの?

ペンギン先生 ペンギン先生

うまく蒸留できれば、教師モデルの7〜9割の性能を10分の1以下のサイズで実現できることもあるよ。特定タスクなら教師と同等以上になることすらある。

ひよこ ひよこ

それって革命的だね!コストも下がるし端末でも動くし、いいことずくめだね!

ペンギン先生 ペンギン先生

そうなんだよ。AIのコストと普及という意味で、モデル蒸留はSLM時代の核心技術のひとつになっているんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「モデル蒸留」って出てきたら「大きなAIの知識を小さなAIに受け継がせる技術」と思えばOK!
📖 おまけ:英語の意味
「Knowledge Distillation / Model Distillation」 = 知識蒸留 / モデル蒸留
💬 蒸留(Distillation)は液体を加熱して純粋なエッセンスを取り出す化学操作だよ。モデルの「知識のエッセンス」を小さなモデルに移し取るイメージだね
← 用語集にもどる