vLLM API 服务 - OpenAI 兼容

🚀 启动服务

# 基础启动
vllm serve meta-llama/Llama-3.2-3B-Instruct

# 常用参数
vllm serve meta-llama/Llama-3.2-3B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto \
  --gpu-memory-utilization 0.9 \
  --max-model-len 4096

📊 参数说明

参数	说明	默认值
--host	监听地址	localhost
--port	端口号	8000
--dtype	数据类型 (auto/fp16/fp8)	auto
--gpu-memory-utilization	GPU 显存利用率	0.9
--max-model-len	最大序列长度	模型默认
--max-num-seqs	最大并发序列	256

🔌 OpenAI SDK 调用

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="dummy"  # vLLM 不验证
)

response = client.chat.completions.create(
    model="meta-llama/Llama-3.2-3B-Instruct",
    messages=[{"role": "user", "content": "Hello!"}]
)

print(response.choices[0].message.content)

📡 流式输出

stream = client.chat.completions.create(
    model="meta-llama/Llama-3.2-3B-Instruct",
    messages=[{"role": "user", "content": "写一首诗"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

🌐 API 端点

端点	说明
/v1/completions	文本补全
/v1/chat/completions	对话补全
/v1/models	模型列表
/health	健康检查

上一页：PagedAttention 下一页：模型支持