【コンスティテューショナルエーアイ】

Constitutional AI とは?

💡 AIに憲法を持たせたら、自分でお行儀よくなった
📌 このページのポイント
Constitutional AI のセルフフィードバック 原則リスト(憲法) ・有害でないこと ・正確であること ・公平であること ・プライバシー保護 ... 人間が設計 1. 回答生成 AIが自由に回答 2. 自己批評 原則に照らしチェック 3. 修正・改善 問題箇所を書き直し 改善された 学習データ → モデル再学習 → より安全なAI 人間のフィードバックを最小限に → スケーラブルな安全性
Constitutional AIのセルフフィードバックサイクル
ひよこ ひよこ

AIに憲法って、どういうこと?

ペンギン先生 ペンギン先生

例えば「差別的な表現をしない」「暴力を助長しない」「嘘をつかない」みたいな原則のリストをAIに渡すんだ。AIはこの原則に照らして自分の回答をチェックして、問題があれば自分で書き直すんだよ

ひよこ ひよこ

自分で自分を直すなんて、ちゃんとできるの?

ペンギン先生 ペンギン先生

意外とうまくいくんだ。まずAIに自由に回答させて、次に「この回答は原則に違反していないか?」と自己批評させる。違反があれば修正版を生成する。この繰り返しで作った修正データを使って、さらにモデルを学習させるんだよ

ひよこ ひよこ

RLHFとはどう違うの?

ペンギン先生 ペンギン先生

RLHFは大量の人間のフィードバックが必要だけど、Constitutional AIはAI自身が原則に基づいてフィードバックを生成するから、人手が大幅に減るんだ。ただし最初の原則リストは人間が設計する必要があるよ

ひよこ ひよこ

原則はどうやって決めるの?

ペンギン先生 ペンギン先生

これが実は一番難しい部分でね。「有害でないこと」と「有用であること」のバランスが重要なんだ。原則を厳しくしすぎると何も答えないAIになるし、緩すぎると安全にならない。Anthropic社は国連人権宣言なども参考にしながら原則を設計しているよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Constitutional AI」って出てきたら「AIにルールを教えて自分で反省させる安全技術」と思えればだいたいOK!
📖 おまけ:英語の意味
「Constitutional AI」 = 憲法的AI
💬 Constitutionalは「憲法の」という意味。国の憲法のように、AIの行動を律する最高原則を設定するイメージだよ
← 用語集にもどる