GRPOとは何ですか？

グループ相対ポリシー最適化。強化学習でLLMを改善する手法で、複数の応答をグループとして比較評価することで、効率的にモデルを最適化する。

GRPOのポイントは？

DeepSeekが提案した強化学習手法で、DeepSeek-R1の学習に使われた。従来のPPOで必要だった価値関数（Critic）モデルを不要にし、計算コストを大幅削減。同じ質問に対する複数の回答をグループとして生成し、グループ内で相対評価する。数学的推論や論理的思考の能力向上に特に効果を発揮する

【じーあーるぴーおー】

💡 AIの回答を集団で競わせて、みんなの平均より良い答えを伸ばす作戦

📌 このページのポイント

GRPOのイメージ

ひよこ

GRPOって何が新しいの？

ペンギン先生

従来のPPOという手法では、AIの回答を評価するために別のモデル（Critic）が必要だったんだけど、GRPOはそれを不要にしたんだ。同じ質問に複数の回答を生成して、グループ内で比較するだけでいいんだよ

ひよこ

グループで比較するってどういうこと？

ペンギン先生

たとえば1つの数学の問題に8個の回答を生成するとしよう。正解した回答にはプラスの報酬、間違った回答にはマイナスの報酬を与えて、グループの平均からの差分で評価するんだ

ひよこ

なるほど、テストの偏差値みたいな感じかな？

ペンギン先生

そう！まさに偏差値に近いイメージだね。グループ全体の平均より良い回答を強化して、悪い回答を弱めていくんだ

ひよこ

DeepSeekが使ったことで有名になったんだよね？

ペンギン先生

そうだよ。DeepSeek-R1というモデルがGRPOで学習されて、数学や推論のタスクで驚くべき性能を達成したんだ。Criticモデルが不要な分メモリも少なくて済むから、オープンソースコミュニティでも広く使われるようになったんだよ

まとめ：ざっくりこれだけ覚えればOK！

「GRPO」って出てきたら「AIの回答をグループで競わせて改善する強化学習手法」と思えればだいたいOK！

📖 おまけ：英語の意味

「Group Relative Policy Optimization」＝グループ相対ポリシー最適化

💬 グループ（集団）の中での相対評価でポリシーを最適化するという意味だよ