【だいきぼげんごもでる】

大規模言語モデル とは?

💡 言葉を学びまくった「超物知りな文章マシン」
📌 このページのポイント
大規模言語モデル(LLM)— 学習と推論 学習フェーズ Web文書 書籍 コード 数兆トークンで事前学習 推論フェーズ プロンプト入力 応答生成 次のトークンを確率的に予測 「東京は日本の → 首都」 大規模言語モデル 数百億〜数兆パラメータ GPT-4 Claude Gemini LLaMA
大規模言語モデルのイメージ
ひよこ ひよこ

大規模言語モデルって、普通の言語モデルと何が違うの?

ペンギン先生 ペンギン先生

「規模」がケタ違いなんだ。普通の言語モデルは数百万〜数億のパラメータを持つけど、大規模言語モデルは数百億〜数兆個を持つ。それだけ多くのことを覚えられるから、まるで何でも知っているかのように見えるんだよ。

ひよこ ひよこ

パラメータってそんなに多いと何が変わるの?

ペンギン先生 ペンギン先生

「創発(エマージェンス)」という現象が起きるんだ。規模を大きくするだけで、誰も教えていない能力が突然現れることがある。たとえば算数の文章題を段階的に考える能力が、ある規模を超えると急にできるようになるんだよ。

ひよこ ひよこ

どうやって学習してるの?

ペンギン先生 ペンギン先生

基本は「穴埋め問題」だよ。「東京は日本の__だ」という文章から「首都」を予測する練習を、数千億文字分のテキストで繰り返すんだ。それを何度もやることで、言語の構造や世界の知識を自然に身につけていく。

ひよこ ひよこ

じゃあChatGPTもこれなの?

ペンギン先生 ペンギン先生

そうだよ。ChatGPTGPT-4という大規模言語モデルをベースに、「人間が好む返答をする」よう追加で調整したものなんだ。モデル自体とサービスを区別して理解するのが大事だね。

ひよこ ひよこ

規模を増やせばどんどん賢くなるの?

ペンギン先生 ペンギン先生

これが実は難しい問いでね。「スケーリング則」という考え方では、パラメータ数・データ量・計算量を増やすと性能が予測通りに上がるとされてきた。でも最近は「規模を増やすだけでは頭打ちになる」という意見も出てきていて、推論時に計算を増やす「テスト時計算スケーリング」という新しい方向性も注目されているんだ。スケールアップの限界がどこにあるかは、研究者たちが今まさに議論しているところだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「大規模言語モデル」って出てきたら「めちゃくちゃ大量の文章を学習したAI」と思えればだいたいOK!
📖 おまけ:英語の意味
「Large Language Model」 = 大規模言語モデル
💬 LLMと略されることが多い。Largeは「パラメータ数が巨大」、Languageは「言語(テキスト)を扱う」、Modelは「学習済みの数学的モデル」を指すよ
← 用語集にもどる