GGUFとは何ですか？

GGUF（ジージーユーエフ）とは、ローカルPCでLLMを動かすための量子化モデルファイル形式のこと。llama.cppやOllamaで標準採用され、GPU不要でもAIモデルを動かせる仕組みと量子化レベルの選び方をわかりやすく解説。

GGUFのポイントは？

llama.cppエコシステムで標準的に使われるモデルファイル形式。量子化された重み・トークナイザー・メタデータを1ファイルに格納。Q4_K_MやQ5_K_Sなど量子化レベルを選んで精度とサイズのバランスを調整できる。Ollamaなど多くのローカルLLMツールが内部でGGUFを採用している

【ジージーユーエフ】

GGUF とは？

💡 ローカルLLMの共通言語、これ1ファイルで即起動

📌 このページのポイント

llama.cpp エコシステムで標準的に使われるモデルファイル形式
量子化された重み・トークナイザー・メタデータを1ファイルに格納
Q4_K_MやQ5_K_Sなど量子化レベルを選んで精度とサイズのバランスを調整できる
Ollamaなど多くのローカルLLMツールが内部でGGUFを採用している

GGUFファイル形式のイメージ

ひよこ

GGUFって何が嬉しいの？

ペンギン先生

LLMをローカルPC、しかもGPUなしのCPUだけでも動かせるようにするためのファイル形式だよ。モデルの重みを量子化して軽くして、必要な情報を1つのファイルにまとめてあるんだ

ひよこ

量子化レベルが色々あるみたいだけど？

ペンギン先生

Q4_K_MとかQ5_K_Sとか見たことあるかな。Qの後の数字がビット数で、小さいほど軽いけど精度は下がる。KはK-Quantsという賢い量子化方式、MやSはMedium・Smallでパラメータの扱い方の違いだよ。一般的にはQ4_K_Mがサイズと品質のバランスが良いとされているね

ひよこ

前はGGMLっていうのがあったよね？

ペンギン先生

そうそう。GGMLはメタデータの扱いに問題があって、モデルの情報を後から追加しにくかったんだ。GGUFはそこを改良して、トークナイザーやチャットテンプレートなども一緒に格納できるようになった。後方互換性も考慮された設計になっているよ

ひよこ

SafetensorsやPyTorchの形式とはどう違うの？

ペンギン先生

SafetensorsやPyTorchの.binは主にGPUでの学習・推論用で、フル精度や半精度の重みが入っている。GGUFは推論特化で量子化済みの重みが入っているんだ。HuggingFaceでモデルを探すと同じモデルでもGGUF版が別に公開されていることが多いよ。ローカルで試したいならGGUFを選べば間違いないね

まとめ：ざっくりこれだけ覚えればOK！

「GGUF」って出てきたら「ローカルでLLMを動かすための軽量モデル形式」と思えればだいたいOK！

📖 おまけ：英語の意味

「GPT-Generated Unified Format」＝ GPT生成統一フォーマット

💬 前身のGGMLフォーマットを改良したもので、Georgi Gerganov氏が開発したllama.cppから生まれたよ

← 用語集にもどる