インストラクションチューニングとは何ですか？

大規模言語モデルに「指示と望ましい応答」のペアデータで追加学習を行い、ユーザーの指示に的確に従えるようにする手法。ChatGPTの成功を支えた重要技術の一つ。

インストラクションチューニングのポイントは？

指示文と模範回答のペアデータでモデルを追加学習させる。事前学習だけでは「次の単語を予測するだけ」のモデルを対話向けに変える。GoogleのFLAN、MetaのLlama-Chatなど多くのモデルで採用。RLHFと組み合わせることでさらに人間の好みに合った応答になる

【いんすとらくしょんちゅーにんぐ】

💡 賢いだけじゃダメ、言うことを聞けるAIに育てる

📌 このページのポイント

インストラクションチューニングのイメージ

ひよこ

インストラクションチューニングって、普通のファインチューニングと何が違うの？

ペンギン先生

ファインチューニングは特定タスク向けにモデルを調整する一般的な手法だけど、インストラクションチューニングは「指示に従う」という能力そのものを鍛えるのが特徴だよ。多種多様な指示と回答のペアを学習させることで、未知の指示にも対応できるようになるんだ

ひよこ

どんなデータで学習するの？

ペンギン先生

「この文章を要約して」→要約文、「フランス語に翻訳して」→翻訳文、みたいな指示と回答のペアだよ。数百から数万種類のタスクを混ぜて学習させることで、幅広い指示に対応できるようになるんだ

ひよこ

これをやらないとどうなるの？

ペンギン先生

事前学習だけのモデルは「次に来そうな単語を予測する」能力は高いけど、ユーザーの質問に答えるのは苦手なんだ。「日本の首都は？」と聞いても「日本の人口は？日本の面積は？」と質問を続けてしまうような挙動になりがちだよ

ひよこ

RLHFとはどう使い分けるの？

ペンギン先生

一般的にはインストラクションチューニングで基本的な指示理解を身につけた後、RLHFで回答の品質や安全性をさらに磨くという2段階構成が主流だよ。InstructGPTやChatGPTもこの流れで作られていて、両方を組み合わせることで実用レベルの対話AIが実現したんだ

まとめ：ざっくりこれだけ覚えればOK！

「インストラクションチューニング」って出てきたら「AIに指示の従い方を教える特訓」と思えればだいたいOK！

📖 おまけ：英語の意味

「Instruction Tuning」＝指示による調整

💬 instructionは「指示」、tuningは「調整」。お行儀の良いAIに仕上げるための追加訓練だよ