vLLM 性能优化指南

💾 显存优化

GPU 显存利用率

vllm serve model-name \
  --gpu-memory-utilization 0.95  # 提高到 95%

限制序列长度

vllm serve model-name \
  --max-model-len 4096  # 减少上下文窗口

FP8 量化 (H100)

vllm serve meta-llama/Llama-3.3-70B-Instruct \
  --dtype fp8  # 显存减半

⚡ 吞吐量优化

参数	说明	建议值
--max-num-seqs	最大并发序列	256-512
--max-num-batched-tokens	批处理 token 数	8192-32768
--enable-prefix-caching	前缀缓存	True

🕐 延迟优化

Speculative Decoding

vllm serve model-name \
  --speculative-model [小模型] \
  --num-speculative-tokens 5

Chunked Prefill

vllm serve model-name \
  --enable-chunked-prefill \
  --max-num-batched-tokens 512

📊 基准测试

# 使用 vLLM 自带基准测试
python benchmarks/benchmark_throughput.py \
  --model meta-llama/Llama-3.2-3B-Instruct \
  --backend vllm \
  --input-len 128 \
  --output-len 128

🎯 优化建议

小模型 - 提高 max-num-seqs 增加并发
大模型 - 使用 FP8 或 Tensor Parallelism
长序列 - 启用 Chunked Prefill
重复请求 - 启用 Prefix Caching
低延迟 - 使用 Speculative Decoding