💾 显存优化

GPU 显存利用率

vllm serve model-name \
--gpu-memory-utilization 0.95 # 提高到 95%

限制序列长度

vllm serve model-name \
--max-model-len 4096 # 减少上下文窗口

FP8 量化 (H100)

vllm serve meta-llama/Llama-3.3-70B-Instruct \
--dtype fp8 # 显存减半

⚡ 吞吐量优化

参数说明建议值
--max-num-seqs最大并发序列256-512
--max-num-batched-tokens批处理 token 数8192-32768
--enable-prefix-caching前缀缓存True

🕐 延迟优化

Speculative Decoding

vllm serve model-name \
--speculative-model [小模型] \
--num-speculative-tokens 5

Chunked Prefill

vllm serve model-name \
--enable-chunked-prefill \
--max-num-batched-tokens 512

📊 基准测试

# 使用 vLLM 自带基准测试
python benchmarks/benchmark_throughput.py \
--model meta-llama/Llama-3.2-3B-Instruct \
--backend vllm \
--input-len 128 \
--output-len 128

🎯 优化建议

  • 小模型 - 提高 max-num-seqs 增加并发
  • 大模型 - 使用 FP8 或 Tensor Parallelism
  • 长序列 - 启用 Chunked Prefill
  • 重复请求 - 启用 Prefix Caching
  • 低延迟 - 使用 Speculative Decoding
上一页:分布式部署下一页:常见问题