📋 系统要求
📦 pip 安装
# 基础安装
pip install vllm
# 验证安装
python -c "import vllm; print(vllm.__version__)"从源码安装
git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .🐳 Docker 部署
# 拉取镜像
docker pull vllm/vllm-openai:latest
# 运行容器
docker run --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=your_token" \
vllm/vllm-openai:latest \
--model meta-llama/Llama-3.2-3B-Instruct🎮 GPU 配置
显存需求参考
🔐 HuggingFace Token
下载 Llama 等需要授权的模型:
export HF_TOKEN=your_token_here
huggingface-cli login --token $HF_TOKEN