【くりっぷもでる】

CLIPモデル とは?

💡 画像と言葉をつなぐ翻訳者、AIの目と耳を結びつけるモデル
📌 このページのポイント
CLIPモデルの仕組み 画像エンコーダ 猫の写真 → ベクトル テキストエンコーダ 「かわいい猫」 共有ベクトル空間 近い = 類似 画像分類 ゼロショット対応 画像検索 テキストで画像を検索 画像生成AI プロンプト理解に活用
CLIPモデルのイメージ
ひよこ ひよこ

CLIPって何ができるの?

ペンギン先生 ペンギン先生

画像を見て「これは猫だ」とか「ビーチの夕焼けだ」とか、テキストで説明できるAIモデルだよ。逆にテキストから「こんな画像」を探すこともできるんだ

ひよこ ひよこ

どうやって画像と言葉を結びつけてるの?

ペンギン先生 ペンギン先生

画像もテキストも同じ数値の列(ベクトル)に変換して、似た意味のものが近くに配置されるようにしているんだよ。猫の画像と「猫」というテキストが近い位置にくるイメージだね

ひよこ ひよこ

画像生成AIにも使われてるんだよね?

ペンギン先生 ペンギン先生

そうだよ。Stable Diffusionなどの画像生成AIでは、ユーザーが入力したプロンプトを理解する部分にCLIPが使われているんだ。CLIPがなければ画像生成AIは言葉を理解できないんだよ

ひよこ ひよこ

すごいね!弱点はあるのかな?

ペンギン先生 ペンギン先生

細かい数や位置関係の理解が苦手という弱点があるよ。『3匹の猫』と『5匹の猫』の区別が難しかったりするんだ。この課題を解決する後継モデルも研究されているよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「CLIP」って出てきたら「画像とテキストを結びつけるAIモデル」と思えればだいたいOK!
📖 おまけ:英語の意味
「Contrastive Language-Image Pre-training」 = 対照的な言語・画像の事前学習
💬 画像と言葉を対照(比較)させながら学習するという仕組みから名前がついたんだよ
← 用語集にもどる