vLLM 安装部署指南

📋 系统要求

组件	要求
Python	3.8+
CUDA	11.8 或 12.1+
GPU	NVIDIA (CUDA)、AMD (ROCm)、TPU
GPU 内存	取决于模型大小

📦 pip 安装

# 基础安装
pip install vllm

# 验证安装
python -c "import vllm; print(vllm.__version__)"

从源码安装

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .

🐳 Docker 部署

# 拉取镜像
docker pull vllm/vllm-openai:latest

# 运行容器
docker run --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -p 8000:8000 \
  --env "HUGGING_FACE_HUB_TOKEN=your_token" \
  vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.2-3B-Instruct

🎮 GPU 配置

显存需求参考

模型	FP16	FP8
7B	~16GB	~8GB
13B	~28GB	~14GB
70B	~140GB (多卡)	~70GB

🔐 HuggingFace Token

下载 Llama 等需要授权的模型：

export HF_TOKEN=your_token_here
huggingface-cli login --token $HF_TOKEN

上一页：核心特性下一页：PagedAttention