【じーあーるぴーおー】
GRPO とは?
💡 AIの回答を集団で競わせて、みんなの平均より良い答えを伸ばす作戦
📌 このページのポイント
GRPOって何が新しいの?
従来のPPOという手法では、AIの回答を評価するために別のモデル(Critic)が必要だったんだけど、GRPOはそれを不要にしたんだ。同じ質問に複数の回答を生成して、グループ内で比較するだけでいいんだよ
グループで比較するってどういうこと?
たとえば1つの数学の問題に8個の回答を生成するとしよう。正解した回答にはプラスの報酬、間違った回答にはマイナスの報酬を与えて、グループの平均からの差分で評価するんだ
なるほど、テストの偏差値みたいな感じかな?
そう!まさに偏差値に近いイメージだね。グループ全体の平均より良い回答を強化して、悪い回答を弱めていくんだ
DeepSeekが使ったことで有名になったんだよね?
そうだよ。DeepSeek-R1というモデルがGRPOで学習されて、数学や推論のタスクで驚くべき性能を達成したんだ。Criticモデルが不要な分メモリも少なくて済むから、オープンソースコミュニティでも広く使われるようになったんだよ
まとめ:ざっくりこれだけ覚えればOK!
「GRPO」って出てきたら「AIの回答をグループで競わせて改善する強化学習手法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Group Relative Policy Optimization」 = グループ相対ポリシー最適化
💬 グループ(集団)の中での相対評価でポリシーを最適化するという意味だよ