【じーあーるぴーおー】

GRPO とは?

💡 AIの回答を集団で競わせて、みんなの平均より良い答えを伸ばす作戦
📌 このページのポイント
GRPO: グループ相対ポリシー最適化 質問 数学の問題 LLM 複数の回答を グループ生成 (例: 8個) 回答1 ○ 回答2 × 回答3 ○ 回答4 × グループ相対評価 ○ → +報酬 × → -報酬 平均からの差分で計算 (Criticモデル不要) 従来のPPO Criticモデルが必要 メモリ消費大 / コスト高 GRPO Criticモデル不要 メモリ効率的 / 低コスト
GRPOのイメージ
ひよこ ひよこ

GRPOって何が新しいの?

ペンギン先生 ペンギン先生

従来のPPOという手法では、AIの回答を評価するために別のモデル(Critic)が必要だったんだけど、GRPOはそれを不要にしたんだ。同じ質問に複数の回答を生成して、グループ内で比較するだけでいいんだよ

ひよこ ひよこ

グループで比較するってどういうこと?

ペンギン先生 ペンギン先生

たとえば1つの数学の問題に8個の回答を生成するとしよう。正解した回答にはプラスの報酬、間違った回答にはマイナスの報酬を与えて、グループの平均からの差分で評価するんだ

ひよこ ひよこ

なるほど、テストの偏差値みたいな感じかな?

ペンギン先生 ペンギン先生

そう!まさに偏差値に近いイメージだね。グループ全体の平均より良い回答を強化して、悪い回答を弱めていくんだ

ひよこ ひよこ

DeepSeekが使ったことで有名になったんだよね?

ペンギン先生 ペンギン先生

そうだよ。DeepSeek-R1というモデルがGRPOで学習されて、数学や推論のタスクで驚くべき性能を達成したんだ。Criticモデルが不要な分メモリも少なくて済むから、オープンソースコミュニティでも広く使われるようになったんだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「GRPO」って出てきたら「AIの回答をグループで競わせて改善する強化学習手法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Group Relative Policy Optimization」 = グループ相対ポリシー最適化
💬 グループ(集団)の中での相対評価でポリシーを最適化するという意味だよ
← 用語集にもどる