💾 显存优化
GPU 显存利用率
vllm serve model-name \
--gpu-memory-utilization 0.95 # 提高到 95%
限制序列长度
vllm serve model-name \
--max-model-len 4096 # 减少上下文窗口
FP8 量化 (H100)
vllm serve meta-llama/Llama-3.3-70B-Instruct \
--dtype fp8 # 显存减半
⚡ 吞吐量优化
| 参数 | 说明 | 建议值 |
|---|
| --max-num-seqs | 最大并发序列 | 256-512 |
| --max-num-batched-tokens | 批处理 token 数 | 8192-32768 |
| --enable-prefix-caching | 前缀缓存 | True |
🕐 延迟优化
Speculative Decoding
vllm serve model-name \
--speculative-model [小模型] \
--num-speculative-tokens 5
Chunked Prefill
vllm serve model-name \
--enable-chunked-prefill \
--max-num-batched-tokens 512
📊 基准测试
# 使用 vLLM 自带基准测试
python benchmarks/benchmark_throughput.py \
--model meta-llama/Llama-3.2-3B-Instruct \
--backend vllm \
--input-len 128 \
--output-len 128
🎯 优化建议
- 小模型 - 提高 max-num-seqs 增加并发
- 大模型 - 使用 FP8 或 Tensor Parallelism
- 长序列 - 启用 Chunked Prefill
- 重复请求 - 启用 Prefix Caching
- 低延迟 - 使用 Speculative Decoding