🚀 启动服务

# 基础启动
vllm serve meta-llama/Llama-3.2-3B-Instruct

# 常用参数
vllm serve meta-llama/Llama-3.2-3B-Instruct \
--host 0.0.0.0 \
--port 8000 \
--dtype auto \
--gpu-memory-utilization 0.9 \
--max-model-len 4096

📊 参数说明

参数说明默认值
--host监听地址localhost
--port端口号8000
--dtype数据类型 (auto/fp16/fp8)auto
--gpu-memory-utilizationGPU 显存利用率0.9
--max-model-len最大序列长度模型默认
--max-num-seqs最大并发序列256

🔌 OpenAI SDK 调用

from openai import OpenAI

client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="dummy" # vLLM 不验证
)

response = client.chat.completions.create(
model="meta-llama/Llama-3.2-3B-Instruct",
messages=[{"role": "user", "content": "Hello!"}]
)

print(response.choices[0].message.content)

📡 流式输出

stream = client.chat.completions.create(
model="meta-llama/Llama-3.2-3B-Instruct",
messages=[{"role": "user", "content": "写一首诗"}],
stream=True
)

for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")

🌐 API 端点

端点说明
/v1/completions文本补全
/v1/chat/completions对话补全
/v1/models模型列表
/health健康检查
上一页:PagedAttention下一页:模型支持