【まるちもーだるえるえるえむ】

マルチモーダルLLM とは?

💡 五感を持ったAI、テキストも画像も音声もまとめてお任せ
📌 このページのポイント
マルチモーダルLLMの構造 テキスト こんにちは 画像 🖼️ 写真 音声 🎵 波形 動画 🎬 映像 トークナイザ 画像 エンコーダ 音声 エンコーダ 動画 エンコーダ 統合トークン列 LLM Transformer アーキテクチャ 統合的に推論 出力 テキスト 画像 音声 コード
マルチモーダルLLMのイメージ
ひよこ ひよこ

マルチモーダルって「たくさんのモード」ってこと?

ペンギン先生 ペンギン先生

そうだね。モダリティは「情報の種類」と思えばいいよ。テキスト・画像・音声・動画、それぞれが1つのモダリティ。マルチモーダルLLMはこれらを複数同時に扱えるモデルのことだよ

ひよこ ひよこ

前のLLMはテキストだけだったの?

ペンギン先生 ペンギン先生

うん、初期のGPT-3やGPT-3.5はテキスト入力→テキスト出力だけだった。それがGPT-4Vで画像入力に対応し、GPT-4oではさらに音声もリアルタイムで扱えるようになったんだ。急速に進化しているよね

ひよこ ひよこ

全部1つのモデルで処理するメリットって何?

ペンギン先生 ペンギン先生

バラバラの専門モデルを組み合わせるより、情報の関連性を横断的に理解できるのが強みだよ。たとえば動画を見ながら音声も聞いて「この場面で何が起きているか」を総合的に判断できるんだ

ひよこ ひよこ

技術的にはどうやって複数のモダリティを統合してるの?

ペンギン先生 ペンギン先生

多くのモデルでは、画像や音声を専用エンコーダでトークン列に変換してからLLMに入力する方式を取っているよ。Geminiのようにネイティブにマルチモーダルアーキテクチャもあって、各社のアプローチの違いが性能差に直結するホットな研究領域だね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
マルチモーダルLLM」って出てきたら「文字も画像も音声も全部わかるAI」と思えればだいたいOK!
📖 おまけ:英語の意味
「Multimodal Large Language Model」 = 多様式大規模言語モデル
💬 Multi(複数)+ Modal(様式)で、情報の「受け取り方」が複数あるという意味だよ
← 用語集にもどる