📋 系统要求

组件要求
Python3.8+
CUDA11.8 或 12.1+
GPUNVIDIA (CUDA)、AMD (ROCm)、TPU
GPU 内存取决于模型大小

📦 pip 安装

# 基础安装
pip install vllm

# 验证安装
python -c "import vllm; print(vllm.__version__)"

从源码安装

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .

🐳 Docker 部署

# 拉取镜像
docker pull vllm/vllm-openai:latest

# 运行容器
docker run --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=your_token" \
vllm/vllm-openai:latest \
--model meta-llama/Llama-3.2-3B-Instruct

🎮 GPU 配置

显存需求参考

模型FP16FP8
7B~16GB~8GB
13B~28GB~14GB
70B~140GB (多卡)~70GB

🔐 HuggingFace Token

下载 Llama 等需要授权的模型:

export HF_TOKEN=your_token_here
huggingface-cli login --token $HF_TOKEN
上一页:核心特性下一页:PagedAttention