【コンスティテューショナルエーアイ】
Constitutional AI とは?
💡 AIに憲法を持たせたら、自分でお行儀よくなった
📌 このページのポイント
- AI自身が原則に基づいて自分の回答を批評・改善するセルフフィードバックの仕組み
- 人間のフィードバックへの依存を減らし、スケーラブルな安全性向上を目指す
- 有害な出力の抑制と有用性の維持を両立させるのが狙い
- Anthropic社のClaudeの学習にも活用されている技術
AIに憲法って、どういうこと?
例えば「差別的な表現をしない」「暴力を助長しない」「嘘をつかない」みたいな原則のリストをAIに渡すんだ。AIはこの原則に照らして自分の回答をチェックして、問題があれば自分で書き直すんだよ
自分で自分を直すなんて、ちゃんとできるの?
意外とうまくいくんだ。まずAIに自由に回答させて、次に「この回答は原則に違反していないか?」と自己批評させる。違反があれば修正版を生成する。この繰り返しで作った修正データを使って、さらにモデルを学習させるんだよ
RLHFとはどう違うの?
RLHFは大量の人間のフィードバックが必要だけど、Constitutional AIはAI自身が原則に基づいてフィードバックを生成するから、人手が大幅に減るんだ。ただし最初の原則リストは人間が設計する必要があるよ
原則はどうやって決めるの?
これが実は一番難しい部分でね。「有害でないこと」と「有用であること」のバランスが重要なんだ。原則を厳しくしすぎると何も答えないAIになるし、緩すぎると安全にならない。Anthropic社は国連人権宣言なども参考にしながら原則を設計しているよ
まとめ:ざっくりこれだけ覚えればOK!
「Constitutional AI」って出てきたら「AIにルールを教えて自分で反省させる安全技術」と思えればだいたいOK!
📖 おまけ:英語の意味
「Constitutional AI」 = 憲法的AI
💬 Constitutionalは「憲法の」という意味。国の憲法のように、AIの行動を律する最高原則を設定するイメージだよ