【まるちもーだるえるえるえむ】
マルチモーダルLLM とは?
💡 五感を持ったAI、テキストも画像も音声もまとめてお任せ
📌 このページのポイント
マルチモーダルって「たくさんのモード」ってこと?
そうだね。モダリティは「情報の種類」と思えばいいよ。テキスト・画像・音声・動画、それぞれが1つのモダリティ。マルチモーダルLLMはこれらを複数同時に扱えるモデルのことだよ
前のLLMはテキストだけだったの?
全部1つのモデルで処理するメリットって何?
バラバラの専門モデルを組み合わせるより、情報の関連性を横断的に理解できるのが強みだよ。たとえば動画を見ながら音声も聞いて「この場面で何が起きているか」を総合的に判断できるんだ
技術的にはどうやって複数のモダリティを統合してるの?
まとめ:ざっくりこれだけ覚えればOK!
「マルチモーダルLLM」って出てきたら「文字も画像も音声も全部わかるAI」と思えればだいたいOK!
📖 おまけ:英語の意味
「Multimodal Large Language Model」 = 多様式大規模言語モデル
💬 Multi(複数)+ Modal(様式)で、情報の「受け取り方」が複数あるという意味だよ