什么是量化?
量化是将模型权重从 FP16/FP32 降低精度到更低比特(如 4-bit、8-bit),减小模型体积和内存需求,速度更快但精度略降。
量化级别对比
选择量化模型
# 默认 Q4_K_M(推荐)
ollama run llama3.1
# 指定量化
ollama run llama3.1:8b-instruct-q5_K_M
ollama run llama3.1:8b-instruct-q8_0自定义量化
# 创建 Modelfile
FROM /path/to/model.fp16
# 创建量化模型
ollama create --quantize q4_K_M my-model选择建议
- Q4_K_M - 日常使用,性价比最高
- Q5_K_M - 需要更高精度
- Q8_0 - 质量优先,内存充足