【がーどれーるえーあい】

ガードレールAI とは?

💡 AIが道を踏み外さないための「安全柵」
📌 このページのポイント
ガードレールAI(安全機構) ユーザー 入力 入力 ガードレール インジェクション 検出・フィルタ LLM 生成 出力 ガードレール 有害性チェック 事実性検証 安全な 出力 ブロック例 プロンプトインジェクション ブロック例 有害コンテンツ・個人情報
ガードレールAIのイメージ
ひよこ ひよこ

ガードレールAIって、高速道路のガードレールと関係あるの?

ペンギン先生 ペンギン先生

まさにそのイメージだよ!高速道路のガードレールが車の転落を防ぐように、AIが有害な出力や間違った情報を出さないようにする安全装置のことなんだ

ひよこ ひよこ

具体的にはどんなことを防いでくれるの?

ペンギン先生 ペンギン先生

たとえば暴力的な内容の生成を止めたり、個人情報をうっかり出力しないようにしたり、ハルシネーション(嘘の情報)を検出したりするよ。入力側でプロンプトインジェクションを弾くのもガードレールの一種だね

ひよこ ひよこ

フレームワークとかもあるの?

ペンギン先生 ペンギン先生

あるよ!「Guardrails AI」というそのものズバリな名前のOSSがあって、出力のバリデーションや修正を自動でやってくれる。NVIDIAのNeMo Guardrailsも有名で、会話の流れ自体を制御できるんだ

ひよこ ひよこ

でもガードレールを入れすぎると、AIが何も答えられなくならない?

ペンギン先生 ペンギン先生

いいところに気づいたね。過剰なフィルタリングは「過検知」といって、正当な質問まで弾いてしまう問題があるんだ。安全性とユーザビリティのバランスを取るのが実は一番難しいところだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
ガードレールAI」って出てきたら「AIが変なことを言わないように見張る仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Guardrails AI」 = AI用の防護柵
💬 Guardrailは高速道路のガードレールと同じ。AIが危険な方向に行かないようにする柵のイメージだよ
← 用語集にもどる