【あーるえるえいちえふ】
RLHF とは?
💡 人間の「好み」を教師にしてAIを磨く学習法
📌 このページのポイント
- ベースモデルを人間のフィードバックで「より人間好みの回答」にファインチューニングする
- 報酬モデルを学習させ、それを使って強化学習(PPO等)を行う
- ChatGPTやClaudeなど現代の対話AIに広く採用されている
- 人間の評価者が「どちらの回答が良いか」を比較して選ぶことでデータを作る
RLHFって何?AIの学習方法の一つ?
そうだよ。普通の機械学習は「正解データ」を大量に与えて学習させるけど、RLHFは人間に「この回答とこの回答、どっちが良い?」って比較評価させたデータを使って、AIを「人間が好む回答を返せるように」改善していく手法だよ。
なんで普通のファインチューニングじゃダメなの?
「正解の文章」を用意するのが難しいからだよ。有害な質問への理想的な断り方とか、複雑な倫理判断とか、「正解」を一つに決めるのが難しいケースがある。比較(「AよりBがいい」)なら人間でも答えやすいから、RLHFはその比較データを活用するんだ。
おもしろい!強化学習ってゲームのAIで使うやつ?どうつながるの?
RLHFって問題点もあるって聞いたけど?
まとめ:ざっくりこれだけ覚えればOK!
「RLHF」って出てきたら「人間の好みのフィードバックでAIを強化学習させて人間らしい回答にする手法だな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Reinforcement Learning from Human Feedback」 = 人間のフィードバックによる強化学習
💬 Reinforcement Learning(強化学習)はゲームのAIでも使われる手法。そこに「Human Feedback(人間の評価)」を組み合わせたのがRLHF