【ほうしゅうもでる】

報酬モデル とは?

💡 AIの回答に点数をつける「AIの採点官」
📌 このページのポイント
報酬モデル(RLHF)の構造 人間の評価者 良い/悪いを判定 報酬モデル 回答にスコアをつける 報酬スコア 0.9 / 0.3 / 0.1 LLM 回答を生成 回答を評価 スコアで学習 人間の好みを学習し、AIの回答品質を自動評価する仕組み 高スコアの回答を増やすようにLLMを強化学習で改善
報酬モデルのイメージ
ひよこ ひよこ

なんで報酬モデルが必要なの?直接人間が評価すればいいんじゃない?

ペンギン先生 ペンギン先生

強化学習では何百万回も試行錯誤するから、毎回人間が評価するのは物理的に無理なんだ。だから最初に人間が数千~数万件の評価をして、その傾向を学習した報酬モデルを作る。あとはこの報酬モデルが人間の代わりに自動で採点してくれるよ。

ひよこ ひよこ

どうやって報酬モデルを作るの?

ペンギン先生 ペンギン先生

よくある方法は「比較」だよ。AIに同じ質問に対して2つの回答を生成させて、人間に「どっちが良い?」と選んでもらう。この比較データをたくさん集めて学習させると、報酬モデルは「良い回答には高いスコア、悪い回答には低いスコア」をつけられるようになるんだ。

ひよこ ひよこ

報酬モデルが間違った基準を学んだらどうなるの?

ペンギン先生 ペンギン先生

とても大事な問題だね。報酬モデルがおかしな基準を学ぶと、AIが「スコアは高いけど実際には役に立たない」回答を生成する「報酬ハッキング」が起きるんだ。例えば長い回答ほど高スコアと学んでしまうと、無意味に長い回答ばかり生成するようになる。だから報酬モデルの設計と検証はとても慎重に行う必要があるよ。

ひよこ ひよこ

報酬モデルの学習にはどのくらいのデータが必要なの?

ペンギン先生 ペンギン先生

OpenAIの論文では数万件の比較データを使っているよ。人間の評価者が1件あたり数分かけるから、膨大なコストがかかる。だから最近は「AIがAIを評価する」Constitutional AI(Anthropicが提唱)や、AIの出力を自動評価するLLM-as-a-Judgeという手法が研究されているんだ。

ひよこ ひよこ

人間の評価者って誰がやってるの?

ペンギン先生 ペンギン先生

これは実はAI倫理の重要な問題なんだ。多くの場合、低賃金の労働者がAIの出力を評価するタスクを担っていて、有害コンテンツへの曝露による精神的負担が指摘されている。TIME誌の報道ではケニアの労働者が時給2ドル以下でChatGPTの有害コンテンツのラベリングをしていたことが明らかになった。報酬モデルの裏側にある人間の労働についても考える必要があるよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「報酬モデル」って出てきたら「AIの出力に点数をつけて、良し悪しを判定するための学習済みモデルだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Reward Model」 = 報酬モデル
💬 「Reward(報酬・ご褒美)」+「Model(モデル)」。強化学習で良い行動にご褒美を与える基準を学習したモデルという意味だよ
← 用語集にもどる