DPO（Direct Preference Optimization）とは何ですか？

人間の好みに合うようLLMを調整する学習手法。従来のRLHFで必要だった報酬モデルを省略し、好みデータから直接モデルを最適化できる。

DPO（Direct Preference Optimization）のポイントは？

RLHFの代替手法で、報酬モデルの学習ステップを省略できる。「良い回答」と「悪い回答」のペアデータから直接ポリシーを最適化する。実装がシンプルでハイパーパラメータ調整も少なく、研究・実務で急速に普及。RLHFと同等以上の性能を出せるケースも多く、オープンソースLLMの学習に広く採用されている

【ディーピーオー】

💡 報酬モデルなんていらない！好みデータだけでAIを躾ける近道

📌 このページのポイント

DPOとRLHFの学習フロー比較

ひよこ

DPOってRLHFと何が違うの？

ペンギン先生

RLHFは「まず報酬モデルを作って、それを使ってAIを強化学習で鍛える」という2段階だったんだ。DPOはその報酬モデルの部分をスキップして、人間の好みデータから直接AIを調整できる方法だよ

ひよこ

なんでそんなことができるの？

ペンギン先生

数学的なトリックがあってね。「この回答の方が良い」というペアデータがあれば、報酬モデルがやっていた役割を損失関数の中に組み込めることが証明されたんだ。結果的にやってることは似てるけど、手順がぐっとシンプルになったよ

ひよこ

シンプルだと何が嬉しいの？

ペンギン先生

まず実装が楽になる。RLHFだと報酬モデルの学習、PPOの調整と複雑な工程があったけど、DPOはほぼ普通のファインチューニングと同じ感覚で回せるんだ。GPUメモリも節約できるしね

ひよこ

じゃあもうRLHFは使われないの？

ペンギン先生

そうとも限らないよ。タスクによってはRLHFの方が安定する場合もあるし、DPOにも「データの質に敏感」という弱点がある。最近はIPO、KTO、ORPOなどDPOの改良版もたくさん出ていて、好みの学習は今一番ホットな研究分野の一つだね

まとめ：ざっくりこれだけ覚えればOK！

「DPO」って出てきたら「報酬モデルなしで人間の好みに合わせるLLM学習法」と思えればだいたいOK！

📖 おまけ：英語の意味

「Direct Preference Optimization」＝直接的な選好最適化

💬 Directは「直接」、Preferenceは「好み」、Optimizationは「最適化」。報酬モデルを介さず直接好みを学ぶから「ダイレクト」なんだよ