【いんすとらくしょんちゅーにんぐ】
インストラクションチューニング とは?
💡 賢いだけじゃダメ、言うことを聞けるAIに育てる
📌 このページのポイント
インストラクションチューニングって、普通のファインチューニングと何が違うの?
ファインチューニングは特定タスク向けにモデルを調整する一般的な手法だけど、インストラクションチューニングは「指示に従う」という能力そのものを鍛えるのが特徴だよ。多種多様な指示と回答のペアを学習させることで、未知の指示にも対応できるようになるんだ
どんなデータで学習するの?
「この文章を要約して」→要約文、「フランス語に翻訳して」→翻訳文、みたいな指示と回答のペアだよ。数百から数万種類のタスクを混ぜて学習させることで、幅広い指示に対応できるようになるんだ
これをやらないとどうなるの?
事前学習だけのモデルは「次に来そうな単語を予測する」能力は高いけど、ユーザーの質問に答えるのは苦手なんだ。「日本の首都は?」と聞いても「日本の人口は?日本の面積は?」と質問を続けてしまうような挙動になりがちだよ
RLHFとはどう使い分けるの?
まとめ:ざっくりこれだけ覚えればOK!
「インストラクションチューニング」って出てきたら「AIに指示の従い方を教える特訓」と思えればだいたいOK!
📖 おまけ:英語の意味
「Instruction Tuning」 = 指示による調整
💬 instructionは「指示」、tuningは「調整」。お行儀の良いAIに仕上げるための追加訓練だよ