🚀 启动服务
# 基础启动
vllm serve meta-llama/Llama-3.2-3B-Instruct
# 常用参数
vllm serve meta-llama/Llama-3.2-3B-Instruct \
--host 0.0.0.0 \
--port 8000 \
--dtype auto \
--gpu-memory-utilization 0.9 \
--max-model-len 4096
📊 参数说明
| 参数 | 说明 | 默认值 |
|---|
| --host | 监听地址 | localhost |
| --port | 端口号 | 8000 |
| --dtype | 数据类型 (auto/fp16/fp8) | auto |
| --gpu-memory-utilization | GPU 显存利用率 | 0.9 |
| --max-model-len | 最大序列长度 | 模型默认 |
| --max-num-seqs | 最大并发序列 | 256 |
🔌 OpenAI SDK 调用
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="dummy" # vLLM 不验证
)
response = client.chat.completions.create(
model="meta-llama/Llama-3.2-3B-Instruct",
messages=[{"role": "user", "content": "Hello!"}]
)
print(response.choices[0].message.content)
📡 流式输出
stream = client.chat.completions.create(
model="meta-llama/Llama-3.2-3B-Instruct",
messages=[{"role": "user", "content": "写一首诗"}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
🌐 API 端点
| 端点 | 说明 |
|---|
| /v1/completions | 文本补全 |
| /v1/chat/completions | 对话补全 |
| /v1/models | 模型列表 |
| /health | 健康检查 |