Ollama 模型量化 - GGUF 量化格式

什么是量化？

量化是将模型权重从 FP16/FP32 降低精度到更低比特（如 4-bit、8-bit），减小模型体积和内存需求，速度更快但精度略降。

# 默认 Q4_K_M（推荐）
ollama run llama3.1

# 指定量化
ollama run llama3.1:8b-instruct-q5_K_M
ollama run llama3.1:8b-instruct-q8_0

# 创建 Modelfile
FROM /path/to/model.fp16

# 创建量化模型
ollama create --quantize q4_K_M my-model