【ジェミニ】

Gemini とは?

💡 テキストも画像も動画も操る「AIの万能選手」
📌 このページのポイント
Google Gemini ― マルチモーダルAI テキスト 画像 動画 コード Gemini 統合的に理解・生成 回答文 画像生成 要約・分析 コード生成 入力 出力
Geminiのマルチモーダル処理のイメージ
ひよこ ひよこ

マルチモーダルって何がすごいの?

ペンギン先生 ペンギン先生

従来のAIはテキストならテキスト、画像なら画像と、データの種類ごとに別のモデルが必要だったんだ。マルチモーダルは1つのモデルで複数の種類のデータを理解できる。例えば写真を見せて「これ何?」と聞けば文章で答えてくれるよ。

ひよこ ひよこ

Geminiのモデルサイズの違いは何?

ペンギン先生 ペンギン先生

Ultraが一番大きくて最高性能、Proは性能とコストのバランスが良い中間サイズ、Nanoはスマホなどのデバイス上で動くコンパクトサイズだよ。用途に応じて使い分ける設計になっているんだ。

ひよこ ひよこ

Google検索にも使われてるの?

ペンギン先生 ペンギン先生

そうだよ。Google検索のAI Overview機能やGmailの文章支援、Google Workspaceでの資料作成支援など、Googleのさまざまなサービスに組み込まれているんだ。普段使いのツールの裏側でGeminiが動いているケースが増えているよ。

ひよこ ひよこ

GeminiとGPTってどっちがすごいの?

ペンギン先生 ペンギン先生

ベンチマークの種類やタスクによって得意不得意が違うから、一概にどちらが上とは言えないよ。Geminiはマルチモーダル性能やコンテキスト長が強み、GPTは汎用的なテキスト生成の品質が高い。大事なのは「どちらが自分のユースケースに合うか」で選ぶことだね。

ひよこ ひよこ

Geminiのコンテキストウィンドウが100万トークンってすごいの?

ペンギン先生 ペンギン先生

すごいよ。100万トークンは本1冊分以上のテキストを一度に処理できる量だよ。長大なドキュメントの要約や、大規模なコードベースの分析が1回のプロンプトで可能になる。ただしコンテキストが長いほど推論コストも上がるし、情報が多すぎてAIが重要な部分を見落とす「Lost in the Middle」問題もあるから、必ずしも長ければ良いわけではないんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Gemini」って出てきたら「Googleが作った、テキストも画像も動画もまとめて理解できるマルチモーダルAIだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Gemini」 = 双子座
💬 星座の「ふたご座」を意味する英語。複数のモダリティ(データの種類)を統合する「双子」のようなイメージから名付けられたよ
← 用語集にもどる