什么是量化?

量化是将模型权重从 FP16/FP32 降低精度到更低比特(如 4-bit、8-bit),减小模型体积和内存需求,速度更快但精度略降。

量化级别对比

量化压缩比精度推荐
Q4_K_M~4x推荐
Q5_K_M~3.5x更高平衡
Q8_0~2x最高质量优先
FP161x原生最大

选择量化模型

# 默认 Q4_K_M(推荐)
ollama run llama3.1

# 指定量化
ollama run llama3.1:8b-instruct-q5_K_M
ollama run llama3.1:8b-instruct-q8_0

自定义量化

# 创建 Modelfile
FROM /path/to/model.fp16

# 创建量化模型
ollama create --quantize q4_K_M my-model

选择建议

  • Q4_K_M - 日常使用,性价比最高
  • Q5_K_M - 需要更高精度
  • Q8_0 - 质量优先,内存充足
上一页:REST API下一页:GPU 加速