vLLM 分布式部署 - 多卡多节点

📊 并行策略

策略	说明	适用场景
Tensor Parallelism (TP)	模型切片到多卡	大模型单节点多卡
Pipeline Parallelism (PP)	层分割到多卡	超大模型
Data Parallelism (DP)	多份模型副本	提高吞吐量

🖥️ 多卡部署 (Tensor Parallelism)

# 4 卡部署 70B 模型
vllm serve meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.9

# 8 卡部署
vllm serve meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 8

🌐 多节点部署

节点 1 (Master)：

vllm serve meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 4 \
  --data-parallel-size 4 \
  --data-parallel-size-local 2 \
  --data-parallel-start-rank 0 \
  --data-parallel-address <master-ip> \
  --data-parallel-rpc-port 13345

节点 2 (Worker)：

vllm serve meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 4 \
  --data-parallel-size 4 \
  --data-parallel-size-local 2 \
  --data-parallel-start-rank 2 \
  --data-parallel-address <master-ip> \
  --data-parallel-rpc-port 13345

🔄 负载均衡

生产环境推荐架构：

                    ┌─────────────┐
                    │   Nginx     │
                    │ Load Balance│
                    └──────┬──────┘
           ┌───────────────┼───────────────┐
           ↓               ↓               ↓
    ┌──────────┐    ┌──────────┐    ┌──────────┐
    │ vLLM:8001│    │ vLLM:8002│    │ vLLM:8003│
    └──────────┘    └──────────┘    └──────────┘

💾 显存需求参考

模型	FP16	FP8	推荐 GPU
7B	~16GB	~8GB	RTX 4090
70B	~140GB	~70GB	H100 x2
405B	~810GB	~405GB	H100 x8