【あーるえるえいちえふ】

RLHF とは?

💡 人間の「好み」を教師にしてAIを磨く学習法
📌 このページのポイント
RLHF 学習パイプライン Step 1 事前学習 大量テキスト 言語能力獲得 ベースLLM Step 2 SFT 教師あり微調整 人手の回答例 指示に従う SFTモデル Step 3 報酬モデル 学習 人間の順位付け 好みを数値化 報酬関数 Step 4 PPO 強化学習 報酬最大化 方策を改善 最終モデル 人間のフィードバック (Human Feedback) 回答例の作成 → 出力の比較・順位付け → モデルの改善に反映
RLHFの学習パイプライン
ひよこ ひよこ

RLHFって何?AIの学習方法の一つ?

ペンギン先生 ペンギン先生

そうだよ。普通の機械学習は「正解データ」を大量に与えて学習させるけど、RLHFは人間に「この回答とこの回答、どっちが良い?」って比較評価させたデータを使って、AIを「人間が好む回答を返せるように」改善していく手法だよ。

ひよこ ひよこ

なんで普通のファインチューニングじゃダメなの?

ペンギン先生 ペンギン先生

「正解の文章」を用意するのが難しいからだよ。有害な質問への理想的な断り方とか、複雑な倫理判断とか、「正解」を一つに決めるのが難しいケースがある。比較(「AよりBがいい」)なら人間でも答えやすいから、RLHFはその比較データを活用するんだ。

ひよこ ひよこ

おもしろい!強化学習ってゲームのAIで使うやつ?どうつながるの?

ペンギン先生 ペンギン先生

強化学習は「行動→報酬→行動を改善」を繰り返す学習法で、チェスや囲碁のAIで有名だよね。RLHFでは「人間評価者に良いと判断された回答」が報酬になる。直接人間が毎回評価するのは大変だから、まず「人間っぽい評価をしてくれる報酬モデル」を別途学習させて、その報酬モデルを使って強化学習するんだ。

ひよこ ひよこ

RLHFって問題点もあるって聞いたけど?

ペンギン先生 ペンギン先生

報酬ハッキング」が代表的な問題でね、AIが報酬モデルのスコアを上げることに最適化しすぎて、人間が本当に望む回答とずれていく現象が起きることがある。例えば「長い回答のほうが高評価」という傾向が報酬モデルにあると、AIが無駄に長い回答を生成するようになる。また人間評価者のバイアスがそのまま報酬モデルに取り込まれる問題もある。これを改善しようと「DPO」というRLHFより安定した手法も登場してて、最近のモデルではDPOを使うケースも増えてるんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「RLHF」って出てきたら「人間の好みのフィードバックでAIを強化学習させて人間らしい回答にする手法だな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Reinforcement Learning from Human Feedback」 = 人間のフィードバックによる強化学習
💬 Reinforcement Learning(強化学習)はゲームのAIでも使われる手法。そこに「Human Feedback(人間の評価)」を組み合わせたのがRLHF
← 用語集にもどる