【あらいんめんと】
アラインメント(AI安全性) とは?
💡 AIの「心のコンパス」を人間に合わせる技術
📌 このページのポイント
アラインメントって何を揃えてるの?
AIの「やりたいこと」と人間の「やってほしいこと」を揃えているんだ。たとえば「爆弾の作り方を教えて」と聞かれたとき、AIが知識として持っていても断るようにする。これがアラインメントの一例だよ。
どうやって調整するの?
完璧にアラインメントできるの?
実はこれがAI研究の大きな課題なんだ。人間の価値観自体が文化や個人によって違うし、AIが賢くなるほど巧妙にルールの抜け穴を見つけることもある。だからアラインメント研究は現在も最前線で進められている重要な分野なんだよ。
RLHF以外にアラインメントの方法ってあるの?
まとめ:ざっくりこれだけ覚えればOK!
「アラインメント」って出てきたら「AIを人間の価値観に合わせて安全に動くよう調整することだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Alignment」 = 整列、調整
💬 もともとは「一列に揃える」という意味。AIの方向性を人間の価値観と揃えるという意味で使われているよ