【くりっぷもでる】
CLIPモデル とは?
💡 画像と言葉をつなぐ翻訳者、AIの目と耳を結びつけるモデル
📌 このページのポイント
- 画像とテキストを同じベクトル空間に埋め込み、類似度を計算できる
- 4億組の画像・テキストペアで学習された大規模モデル
- 画像生成AI(DALL-E、Stable Diffusion)のテキスト理解部分に活用されている
- ゼロショットで画像分類ができる汎用性の高さが特徴
CLIPって何ができるの?
画像を見て「これは猫だ」とか「ビーチの夕焼けだ」とか、テキストで説明できるAIモデルだよ。逆にテキストから「こんな画像」を探すこともできるんだ
どうやって画像と言葉を結びつけてるの?
画像もテキストも同じ数値の列(ベクトル)に変換して、似た意味のものが近くに配置されるようにしているんだよ。猫の画像と「猫」というテキストが近い位置にくるイメージだね
画像生成AIにも使われてるんだよね?
そうだよ。Stable Diffusionなどの画像生成AIでは、ユーザーが入力したプロンプトを理解する部分にCLIPが使われているんだ。CLIPがなければ画像生成AIは言葉を理解できないんだよ
すごいね!弱点はあるのかな?
細かい数や位置関係の理解が苦手という弱点があるよ。『3匹の猫』と『5匹の猫』の区別が難しかったりするんだ。この課題を解決する後継モデルも研究されているよ
まとめ:ざっくりこれだけ覚えればOK!
「CLIP」って出てきたら「画像とテキストを結びつけるAIモデル」と思えればだいたいOK!
📖 おまけ:英語の意味
「Contrastive Language-Image Pre-training」 = 対照的な言語・画像の事前学習
💬 画像と言葉を対照(比較)させながら学習するという仕組みから名前がついたんだよ