vLLM 常见问题

1. 降低 --gpu-memory-utilization（如 0.8）
2. 减少 --max-model-len
3. 使用 FP8 量化（--dtype fp8）
4. 使用多卡 Tensor Parallelism
5. 选择更小的模型

1. 检查 GPU 显存是否足够加载模型
2. 减少 max-num-seqs
3. 确保没有其他进程占用 GPU
4. 重启服务清理显存碎片

• auto - 自动选择（推荐）
• fp16 - 标准 FP16（A100 兼容）
• fp8 - FP8 量化（H100 专用，显存减半）
• bfloat16 - BF16（某些模型更好）

1. 设置 HuggingFace 镜像：
export HF_ENDPOINT=https://hf-mirror.com
2. 手动下载模型到本地
3. 使用本地路径：vllm serve /path/to/model

1. 提高 --max-num-seqs（如 256）
2. 使用 Data Parallelism 增加副本
3. 前端加负载均衡器

1. 启用 Prefix Caching
2. 使用 Speculative Decoding
3. 调整批处理参数
4. 检查 GPU 利用率
5. 考虑使用更快的小模型

• NVIDIA - CUDA 11.8+，推荐 RTX 3090/4090、A100、H100
• AMD - ROCm 支持
• TPU - Google TPU 支持
• Apple Silicon - MPS 支持（实验性）

vLLM - 生产级高吞吐，适合大规模服务
Ollama - 本地开发简单，适合个人使用