【いんすとらくしょんちゅーにんぐ】

インストラクションチューニング とは?

💡 賢いだけじゃダメ、言うことを聞けるAIに育てる
📌 このページのポイント
インストラクションチューニングの流れ 事前学習済み 次の単語を予測 するだけ 指示・応答ペア 「要約して」→ 要約文 「翻訳して」→ 翻訳文 数百〜数万タスク 調整済みモデル 指示に的確に 従える! Before / After Before(事前学習のみ) Q:日本の首都は? A:日本の人口は?日本の面積は?… After(チューニング済み) Q:日本の首都は? A:日本の首都は東京です。 指示と応答のペアで学習し、対話能力を獲得
インストラクションチューニングのイメージ
ひよこ ひよこ

インストラクションチューニングって、普通のファインチューニングと何が違うの?

ペンギン先生 ペンギン先生

ファインチューニングは特定タスク向けにモデルを調整する一般的な手法だけど、インストラクションチューニングは「指示に従う」という能力そのものを鍛えるのが特徴だよ。多種多様な指示と回答のペアを学習させることで、未知の指示にも対応できるようになるんだ

ひよこ ひよこ

どんなデータで学習するの?

ペンギン先生 ペンギン先生

「この文章を要約して」→要約文、「フランス語に翻訳して」→翻訳文、みたいな指示と回答のペアだよ。数百から数万種類のタスクを混ぜて学習させることで、幅広い指示に対応できるようになるんだ

ひよこ ひよこ

これをやらないとどうなるの?

ペンギン先生 ペンギン先生

事前学習だけのモデルは「次に来そうな単語を予測する」能力は高いけど、ユーザーの質問に答えるのは苦手なんだ。「日本の首都は?」と聞いても「日本の人口は?日本の面積は?」と質問を続けてしまうような挙動になりがちだよ

ひよこ ひよこ

RLHFとはどう使い分けるの?

ペンギン先生 ペンギン先生

一般的にはインストラクションチューニングで基本的な指示理解を身につけた後、RLHFで回答の品質や安全性をさらに磨くという2段階構成が主流だよ。InstructGPTやChatGPTもこの流れで作られていて、両方を組み合わせることで実用レベルの対話AIが実現したんだ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「インストラクションチューニング」って出てきたら「AIに指示の従い方を教える特訓」と思えればだいたいOK!
📖 おまけ:英語の意味
「Instruction Tuning」 = 指示による調整
💬 instructionは「指示」、tuningは「調整」。お行儀の良いAIに仕上げるための追加訓練だよ
← 用語集にもどる