Q: 显存不足怎么办?

1. 降低 --gpu-memory-utilization(如 0.8)
2. 减少 --max-model-len
3. 使用 FP8 量化(--dtype fp8)
4. 使用多卡 Tensor Parallelism
5. 选择更小的模型

Q: CUDA out of memory 错误?

1. 检查 GPU 显存是否足够加载模型
2. 减少 max-num-seqs
3. 确保没有其他进程占用 GPU
4. 重启服务清理显存碎片

Q: 如何选择数据类型?

auto - 自动选择(推荐)
fp16 - 标准 FP16(A100 兼容)
fp8 - FP8 量化(H100 专用,显存减半)
bfloat16 - BF16(某些模型更好)

Q: 模型下载太慢怎么办?

1. 设置 HuggingFace 镜像:
export HF_ENDPOINT=https://hf-mirror.com
2. 手动下载模型到本地
3. 使用本地路径:vllm serve /path/to/model

Q: 如何支持多用户并发?

1. 提高 --max-num-seqs(如 256)
2. 使用 Data Parallelism 增加副本
3. 前端加负载均衡器

Q: 推理速度慢怎么优化?

1. 启用 Prefix Caching
2. 使用 Speculative Decoding
3. 调整批处理参数
4. 检查 GPU 利用率
5. 考虑使用更快的小模型

Q: 支持哪些 GPU?

NVIDIA - CUDA 11.8+,推荐 RTX 3090/4090、A100、H100
AMD - ROCm 支持
TPU - Google TPU 支持
Apple Silicon - MPS 支持(实验性)

Q: vLLM vs Ollama 怎么选?

vLLM - 生产级高吞吐,适合大规模服务
Ollama - 本地开发简单,适合个人使用

上一页:性能优化