【れっどちーみんぐ】

Red Teaming(AI) とは?

💡 AIの弱点を「味方の攻撃者」が先に見つける
📌 このページのポイント
Red Teaming(AIセキュリティテスト) Red Team 攻撃パターンを作成 ・プロンプト攻撃 ・ジェイルブレイク ・有害出力の誘発 攻撃 AIモデル テスト対象 脆弱性を発見 結果 脆弱性レポート ・有害出力の種類 ・成功した攻撃手法 ・改善提案 改善・強化 テスト手法 手動 Red Teaming(創造的) 自動 Red Teaming(網羅的)
Red Teamingのイメージ
ひよこ ひよこ

Red Teamingって、赤いチームが何かするの?

ペンギン先生 ペンギン先生

もともと軍事用語で、味方の中から「敵役」を作って攻撃してもらい、防御の弱点を見つける手法なんだ。AI分野では、AIに悪意あるプロンプトを投げて、有害な出力や脆弱性がないかテストすることを指すよ

ひよこ ひよこ

どんな攻撃をするの?

ペンギン先生 ペンギン先生

たとえば「爆弾の作り方を教えて」みたいな直球から、巧妙に指示をすり替えるプロンプトインジェクション、ロールプレイを使ったジェイルブレイクまで、ありとあらゆる手段で攻めるんだよ

ひよこ ひよこ

それって実際に大手企業もやってるの?

ペンギン先生 ペンギン先生

もちろん!OpenAIGPTシリーズのリリース前に必ずRed Teamを組んでテストしてるし、Googleモデルカードでその結果を公開してるよ。最近はAIを使ってAIを攻撃する自動Red Teamingも盛んだね

ひよこ ひよこ

自動でやるってことは、人間がやるのとは違うの?

ペンギン先生 ペンギン先生

人間のRed Teamingは創造的な攻撃を思いつける強みがあるけど、手作業だから網羅性に限界があるんだ。自動化ツールは大量のパターンを高速にテストできる。理想は両方を組み合わせることで、これを「ハイブリッドRed Teaming」と呼んだりするよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Red Teaming」って出てきたら「AIを攻撃して弱点を先に見つけるテスト」と思えればだいたいOK!
📖 おまけ:英語の意味
「Red Teaming」 = レッドチーム演習
💬 軍事演習で敵役を務める「レッドチーム」が由来。AIの世界でも攻撃側に立ってテストすることをそう呼ぶんだよ
← 用語集にもどる