【びじょんらんげーじもでる】

Vision-Languageモデル とは?

💡 目と言葉を同時に持ったAI、まさに「見て話せる」知能
📌 このページのポイント
Vision-Languageモデルの仕組み 画像入力 🖼️ 📷 テキスト入力 「これは何?」 Vision-Language モデル 画像エンコーダ + LLM テキスト出力 「芝生の上で 茶色い犬が 遊んでいます」
Vision-Languageモデルのイメージ
ひよこ ひよこ

Vision-Languageモデルって、AIが画像を「見る」ってこと?

ペンギン先生 ペンギン先生

そうだよ。画像の中身を理解して、テキストで質問すると画像について答えてくれるんだ。たとえば料理の写真を見せて「これは何?」と聞くと「パスタです」と返してくれるイメージだね

ひよこ ひよこ

普通の画像認識AIとは何が違うの?

ペンギン先生 ペンギン先生

従来の画像認識は「犬」「猫」みたいにラベルを返すだけだったけど、Vision-Languageモデルは自然な文章で説明できるのが大きな違いだよ。「芝生の上で茶色い犬がフリスビーをくわえている」みたいにね

ひよこ ひよこ

どんなところで使われてるの?

ペンギン先生 ペンギン先生

画像の自動キャプション生成、視覚障害者向けの画像説明、ECサイトの商品画像検索、医療画像の診断補助など幅広いよ。GPT-4Vが出てからは一般ユーザーも日常的に使えるようになったね

ひよこ ひよこ

CLIPとかBLIPとか聞くけど、どう違うの?

ペンギン先生 ペンギン先生

CLIPはOpenAIが作った「画像とテキストの類似度を測る」モデルで、検索やゼロショット分類が得意。BLIPはSalesforceが開発した画像キャプション生成が得意なモデル。LLaVAはLLMに視覚機能を追加した対話型モデルで、それぞれ設計思想が違うんだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Vision-Languageモデル」って出てきたら「画像を見て言葉で答えられるAI」と思えればだいたいOK!
📖 おまけ:英語の意味
「Vision-Language Model」 = 視覚-言語モデル
💬 Vision(視覚)とLanguage(言語)を組み合わせた名前で、まさに「見る力」と「話す力」を両立したモデルだよ
← 用語集にもどる