🦙 Llama 系列

vllm serve meta-llama/Llama-3.3-70B-Instruct
vllm serve meta-llama/Llama-3.2-3B-Instruct
vllm serve meta-llama/Llama-3.1-8B-Instruct

🌬️ Mistral 系列

vllm serve mistralai/Mistral-7B-Instruct-v0.3
vllm serve mistralai/Mixtral-8x7B-Instruct-v0.1
vllm serve mistralai/Mistral-Large-Instruct-2407

🏔️ Qwen 系列

vllm serve Qwen/Qwen2.5-72B-Instruct
vllm serve Qwen/Qwen2.5-7B-Instruct
vllm serve Qwen/Qwen2-VL-7B-Instruct

💎 Gemma 系列

vllm serve google/gemma-2-27b-it
vllm serve google/gemma-2-9b-it

🔵 Phi 系列

vllm serve microsoft/Phi-3-medium-128k-instruct
vllm serve microsoft/Phi-3-mini-128k-instruct

📋 支持模型列表

模型家族代表模型特点
LlamaLlama 3.1/3.2/3.3Meta 开源旗舰
MistralMistral/Mixtral高效欧洲模型
QwenQwen2.5阿里通义千问
GemmaGemma 2Google 开源
PhiPhi-3微软小模型
DeepSeekDeepSeek-V2国产 MoE
YiYi-1.5零一万物

💡 使用提示

  • 授权模型 - Llama 需要先在 HuggingFace 申请访问权限
  • 自动下载 - 首次运行自动从 HuggingFace 下载
  • 离线使用 - 设置 HF_HUB_OFFLINE=1 使用本地缓存
  • 自定义模型 - 支持 HuggingFace 格式的自定义模型
上一页:API 服务下一页:分布式部署