【ディーピーオー】
DPO(Direct Preference Optimization) とは?
💡 報酬モデルなんていらない!好みデータだけでAIを躾ける近道
📌 このページのポイント
- RLHFの代替手法で、報酬モデルの学習ステップを省略できる
- 「良い回答」と「悪い回答」のペアデータから直接ポリシーを最適化する
- 実装がシンプルでハイパーパラメータ調整も少なく、研究・実務で急速に普及
- RLHFと同等以上の性能を出せるケースも多く、オープンソースLLMの学習に広く採用されている
DPOってRLHFと何が違うの?
なんでそんなことができるの?
シンプルだと何が嬉しいの?
まず実装が楽になる。RLHFだと報酬モデルの学習、PPOの調整と複雑な工程があったけど、DPOはほぼ普通のファインチューニングと同じ感覚で回せるんだ。GPUメモリも節約できるしね
じゃあもうRLHFは使われないの?
そうとも限らないよ。タスクによってはRLHFの方が安定する場合もあるし、DPOにも「データの質に敏感」という弱点がある。最近はIPO、KTO、ORPOなどDPOの改良版もたくさん出ていて、好みの学習は今一番ホットな研究分野の一つだね
まとめ:ざっくりこれだけ覚えればOK!
「DPO」って出てきたら「報酬モデルなしで人間の好みに合わせるLLM学習法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Direct Preference Optimization」 = 直接的な選好最適化
💬 Directは「直接」、Preferenceは「好み」、Optimizationは「最適化」。報酬モデルを介さず直接好みを学ぶから「ダイレクト」なんだよ