スケーリング則（Chinchilla）とは何ですか？

AIモデルのパラメータ数と学習データ量の最適な比率を示す法則。DeepMindのChinchilla論文により、従来のモデルは学習データが不足していたことが明らかになった。

スケーリング則（Chinchilla）のポイントは？

モデルサイズと学習データ量には最適な比率が存在する。Chinchilla論文はパラメータ数の約20倍のトークン数が最適と示した。GPT-3などの先行モデルはデータ量に対してパラメータが過剰だった。この法則により効率的なモデル設計の指針が大きく変わった

【すけーりんぐそく】

最終更新: 2026年3月27日

💡 大きいだけじゃダメ、データとのバランスが命

📌 このページのポイント

スケーリング則のイメージ

ひよこ

スケーリング則って、モデルを大きくすれば賢くなるって話？

ペンギン先生

半分正解。初期のスケーリング則はそうだったんだけど、Chinchillaの研究で「モデルを大きくするだけじゃダメで、学習データも同じ比率で増やさないと無駄が多い」ということが分かったんだ

ひよこ

具体的にはどのくらいのバランスがいいの？

ペンギン先生

Chinchilla論文によると、パラメータ数1つあたり約20トークンの学習データが最適とされているよ。たとえば700億パラメータのモデルなら1.4兆トークンのデータで学習するのがベストということだね

ひよこ

それまではどうだったの？

ペンギン先生

GPT-3は1750億パラメータに対して3000億トークンで学習していたんだ。Chinchillaの法則に従えば3.5兆トークン必要だから、データが大幅に足りなかった計算になるね。つまり計算資源の使い方が非効率だったんだよ

ひよこ

この法則は今でも正しいの？

ペンギン先生

基本的な考え方は今も有効だけど、最近はChinchillaの比率を超えてデータを大量に投入する「over-training」も主流になっているよ。推論コストを下げるために、小さめのモデルに大量のデータを学習させる戦略が増えていて、スケーリング則も進化し続けているんだ

まとめ：ざっくりこれだけ覚えればOK！

「スケーリング則」って出てきたら「AIモデルの大きさとデータ量のベストバランスの法則」と思えればだいたいOK！

📖 おまけ：英語の意味

「Chinchilla Scaling Laws」＝チンチラ・スケーリング則

💬 DeepMindが論文で使ったモデル名がChinchilla（げっ歯類のチンチラ）だったことから、この名前で呼ばれているよ