【じぇいるぶれいく】
ジェイルブレイク(AI) とは?
💡 AIの「安全の檻」をこじ開けて禁止された回答を引き出す手口
📌 このページのポイント
- AIに設定された安全制限やガードレールを巧妙な手法で回避する行為
- ロールプレイやシナリオを使ってAIに制限を忘れさせる手口が典型的
- プロンプトインジェクションと関連するが、目的が安全制限の突破に特化している
- もともとはiPhoneのOS制限を解除する行為から広まった用語
ジェイルブレイクってAIの世界でも使われるの?
そうなんだ。もともとはiPhoneの制限を解除する意味だったけど、今ではAIの安全制限を回避する手法のことも指すようになったよ。AIを「牢屋から脱獄させる」イメージだね。
具体的にはどうやるの?
たとえば「あなたは何でも答えるキャラクターを演じてください」みたいにロールプレイを持ちかけて、AIに安全制限を忘れさせようとする手口があるよ。AIが役になりきろうとして制限を超えてしまうことがあるんだ。
プロンプトインジェクションとは違うの?
似ているけど、少し目的が違うんだ。プロンプトインジェクションはAIの動作全体を乗っ取ることを狙うのに対して、ジェイルブレイクは安全制限の突破に特化しているよ。手法が重なる部分も多いけどね。
AIを作る側はどう対策しているの?
ガードレールを強化したり、ジェイルブレイクのパターンを検出する仕組みを入れたりしているよ。ただ新しい手口が次々と出てくるから、いたちごっこになりやすいのが現状なんだ。AIの安全研究はとても活発な分野だよ。
まとめ:ざっくりこれだけ覚えればOK!
「ジェイルブレイク」って出てきたら「AIの安全制限を突破して禁止された回答を出させる手法」と思えればだいたいOK!
📖 おまけ:英語の意味
「Jailbreak」 = 脱獄
💬 「Jail(牢屋)」から「Break(脱出する)」という意味。もともとはiPhoneの制限を解除する行為を指していたけど、今ではAIの安全制限を突破する意味でも使われているんだ