【すけーりんぐそく】

スケーリング則(Chinchilla) とは?

💡 大きいだけじゃダメ、データとのバランスが命
📌 このページのポイント
Chinchilla スケーリング則 パラメータ数 → 性能 → データ不足ゾーン 最適バランス GPT-3 ← パラメータ過剰 Chin- chilla 最適比率で 同等性能を達成 最適比率 ≈ パラメータ数 × 20 トークン
スケーリング則のイメージ
ひよこ ひよこ

スケーリング則って、モデルを大きくすれば賢くなるって話?

ペンギン先生 ペンギン先生

半分正解。初期のスケーリング則はそうだったんだけど、Chinchillaの研究で「モデルを大きくするだけじゃダメで、学習データも同じ比率で増やさないと無駄が多い」ということが分かったんだ

ひよこ ひよこ

具体的にはどのくらいのバランスがいいの?

ペンギン先生 ペンギン先生

Chinchilla論文によると、パラメータ数1つあたり約20トークンの学習データが最適とされているよ。たとえば700億パラメータのモデルなら1.4兆トークンのデータで学習するのがベストということだね

ひよこ ひよこ

それまではどうだったの?

ペンギン先生 ペンギン先生

GPT-3は1750億パラメータに対して3000億トークンで学習していたんだ。Chinchillaの法則に従えば3.5兆トークン必要だから、データが大幅に足りなかった計算になるね。つまり計算資源の使い方が非効率だったんだよ

ひよこ ひよこ

この法則は今でも正しいの?

ペンギン先生 ペンギン先生

基本的な考え方は今も有効だけど、最近はChinchillaの比率を超えてデータを大量に投入する「over-training」も主流になっているよ。推論コストを下げるために、小さめのモデルに大量のデータを学習させる戦略が増えていて、スケーリング則も進化し続けているんだ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
スケーリング則」って出てきたら「AIモデルの大きさとデータ量のベストバランスの法則」と思えればだいたいOK!
📖 おまけ:英語の意味
「Chinchilla Scaling Laws」 = チンチラ・スケーリング則
💬 DeepMindが論文で使ったモデル名がChinchilla(げっ歯類のチンチラ)だったことから、この名前で呼ばれているよ
← 用語集にもどる