🦙 Llama 系列
vllm serve meta-llama/Llama-3.3-70B-Instruct
vllm serve meta-llama/Llama-3.2-3B-Instruct
vllm serve meta-llama/Llama-3.1-8B-Instruct
🌬️ Mistral 系列
vllm serve mistralai/Mistral-7B-Instruct-v0.3
vllm serve mistralai/Mixtral-8x7B-Instruct-v0.1
vllm serve mistralai/Mistral-Large-Instruct-2407
🏔️ Qwen 系列
vllm serve Qwen/Qwen2.5-72B-Instruct
vllm serve Qwen/Qwen2.5-7B-Instruct
vllm serve Qwen/Qwen2-VL-7B-Instruct
💎 Gemma 系列
vllm serve google/gemma-2-27b-it
vllm serve google/gemma-2-9b-it
🔵 Phi 系列
vllm serve microsoft/Phi-3-medium-128k-instruct
vllm serve microsoft/Phi-3-mini-128k-instruct
📋 支持模型列表
| 模型家族 | 代表模型 | 特点 |
|---|
| Llama | Llama 3.1/3.2/3.3 | Meta 开源旗舰 |
| Mistral | Mistral/Mixtral | 高效欧洲模型 |
| Qwen | Qwen2.5 | 阿里通义千问 |
| Gemma | Gemma 2 | Google 开源 |
| Phi | Phi-3 | 微软小模型 |
| DeepSeek | DeepSeek-V2 | 国产 MoE |
| Yi | Yi-1.5 | 零一万物 |
💡 使用提示
- 授权模型 - Llama 需要先在 HuggingFace 申请访问权限
- 自动下载 - 首次运行自动从 HuggingFace 下载
- 离线使用 - 设置 HF_HUB_OFFLINE=1 使用本地缓存
- 自定义模型 - 支持 HuggingFace 格式的自定义模型