📊 并行策略

策略说明适用场景
Tensor Parallelism (TP)模型切片到多卡大模型单节点多卡
Pipeline Parallelism (PP)层分割到多卡超大模型
Data Parallelism (DP)多份模型副本提高吞吐量

🖥️ 多卡部署 (Tensor Parallelism)

# 4 卡部署 70B 模型
vllm serve meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.9

# 8 卡部署
vllm serve meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 8

🌐 多节点部署

节点 1 (Master):

vllm serve meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 4 \
--data-parallel-size 4 \
--data-parallel-size-local 2 \
--data-parallel-start-rank 0 \
--data-parallel-address <master-ip> \
--data-parallel-rpc-port 13345

节点 2 (Worker):

vllm serve meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 4 \
--data-parallel-size 4 \
--data-parallel-size-local 2 \
--data-parallel-start-rank 2 \
--data-parallel-address <master-ip> \
--data-parallel-rpc-port 13345

🔄 负载均衡

生产环境推荐架构:

┌─────────────┐
│ Nginx │
│ Load Balance│
└──────┬──────┘
┌───────────────┼───────────────┐
↓ ↓ ↓
┌──────────┐ ┌──────────┐ ┌──────────┐
│ vLLM:8001│ │ vLLM:8002│ │ vLLM:8003│
└──────────┘ └──────────┘ └──────────┘

💾 显存需求参考

模型FP16FP8推荐 GPU
7B~16GB~8GBRTX 4090
70B~140GB~70GBH100 x2
405B~810GB~405GBH100 x8
上一页:模型支持下一页:性能优化