【だいきぼげんごもでる】
大規模言語モデル とは?
💡 言葉を学びまくった「超物知りな文章マシン」
📌 このページのポイント
- 数百億〜数兆個のパラメータを持つ巨大なニューラルネットワーク
- 大量のテキストから「次の単語を予測する」ことを繰り返して学習する
- 翻訳・要約・質問応答・コード生成など幅広いタスクをこなせる
- GPT-4やGemini、Claudeなどが代表的な大規模言語モデル
大規模言語モデルって、普通の言語モデルと何が違うの?
「規模」がケタ違いなんだ。普通の言語モデルは数百万〜数億のパラメータを持つけど、大規模言語モデルは数百億〜数兆個を持つ。それだけ多くのことを覚えられるから、まるで何でも知っているかのように見えるんだよ。
パラメータってそんなに多いと何が変わるの?
「創発(エマージェンス)」という現象が起きるんだ。規模を大きくするだけで、誰も教えていない能力が突然現れることがある。たとえば算数の文章題を段階的に考える能力が、ある規模を超えると急にできるようになるんだよ。
どうやって学習してるの?
基本は「穴埋め問題」だよ。「東京は日本の__だ」という文章から「首都」を予測する練習を、数千億文字分のテキストで繰り返すんだ。それを何度もやることで、言語の構造や世界の知識を自然に身につけていく。
じゃあChatGPTもこれなの?
規模を増やせばどんどん賢くなるの?
まとめ:ざっくりこれだけ覚えればOK!
「大規模言語モデル」って出てきたら「めちゃくちゃ大量の文章を学習したAI」と思えればだいたいOK!
📖 おまけ:英語の意味
「Large Language Model」 = 大規模言語モデル
💬 LLMと略されることが多い。Largeは「パラメータ数が巨大」、Languageは「言語(テキスト)を扱う」、Modelは「学習済みの数学的モデル」を指すよ