【りょうしか(えーあいもでる)】

量子化(AIモデル) とは?

💡 大きなAIを「コンパクトに圧縮」する軽量化技術
📌 このページのポイント
量子化: 精度とサイズのトレードオフ Float32 -3.4e38 +3.4e38 連続値 (高精度) 変換 Int8 -128 +127 離散値 (256段階) モデルサイズ Float32: 100% Int8: 25% 精度 Float32: 100% Int8: ~95% サイズ75%削減、精度はほぼ維持
量子化の仕組み
ひよこ ひよこ

量子化って、AIが「量子コンピュータ」を使うってこと?

ペンギン先生 ペンギン先生

全然違うんだ!量子コンピューターとは無関係だよ。AIの量子化は「モデルのパラメータを表す数値の精度を下げる」技術のことなんだ。例えば32ビットの小数を8ビットの整数に変換するイメージで、容量が約4分の1になるんだよ。

ひよこ ひよこ

なんで精度を下げても大丈夫なの?

ペンギン先生 ペンギン先生

神経ネットワークは少しの誤差には意外とロバスト(頑健)なんだ。32ビットで0.3141592...と表していた値を8ビットで0.31くらいに丸めても、最終的な出力にはほとんど影響しないことが多い。ただ量子化の仕方が悪いと性能が落ちることもあるから、どこをどう量子化するかの設計が大事なんだよ。

ひよこ ひよこ

ローカルでLLMを動かすときに量子化が必要なの?

ペンギン先生 ペンギン先生

そうだよ!例えばLLaMA-3の70Bモデル(700億パラメータ)を32ビット(FP32)で動かすと約280GBのメモリが必要で、一般的なPCには全く無理。でも4ビット量子化すると約35GBになって、高スペックな家庭用PCでも動かせるようになるんだ。

ひよこ ひよこ

量子化って後からできるの?それとも最初からやる必要があるの?

ペンギン先生 ペンギン先生

どちらも可能だけど、これが実は難しいトレードオフなんだ。学習済みモデルにそのまま適用する「学習後量子化(PTQ)」は手軽だけど精度が落ちやすい。学習中から量子化を考慮する「量子化対応学習(QAT)」は精度を保ちやすいけど学習コストがかかる。さらに「どの層を何ビットにするか」という混合精度量子化の最適化は非常に複雑で、同じ4ビット量子化でもアルゴリズムの違いで性能差が大きく出る。ベストな量子化戦略は現在も活発に研究されている分野なんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「量子化」って出てきたら「AIモデルを軽くするためにパラメータの精度を下げる圧縮技術」と思えればだいたいOK!
📖 おまけ:英語の意味
「Quantization」 = 量子化・数値化
💬 物理学の「量子(quanta)」と同じ語源で、連続した値を離散的な値に「段階化(量子化)」するという意味だよ
← 用語集にもどる