📘 项目简介
vLLM 是一个高吞吐量、内存高效的 LLM 推理和服务引擎。由 UC Berkeley Sky Computing Lab 开发,现已成为社区驱动的开源项目。
🎯 核心优势
相比 HuggingFace Transformers 和 TGI,吞吐量提升高达 24x,KV Cache 内存浪费极低。
为什么选择 vLLM?
📄 PagedAttention
类虚拟内存管理,消除内存碎片
⚡ Continuous Batching
动态批处理,提升 GPU 利用率
🔌 OpenAI 兼容
无缝切换,零代码改动
🚀 高吞吐量
比同类系统快 24 倍
🤗 HuggingFace 集成
支持主流开源模型
📊 分布式支持
Tensor/Data Parallelism
🚀 快速开始
# 安装
pip install vllm
# 启动服务
vllm serve meta-llama/Llama-3.2-3B-Instruct
# 调用 API
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{"model": "meta-llama/Llama-3.2-3B-Instruct", "prompt": "Hello"}'
🎯 核心技术
📊 项目数据
- GitHub Stars - 35K+
- 开发机构 - UC Berkeley
- 许可证 - Apache 2.0
- 支持模型 - Llama、Mistral、Qwen、Gemma 等
- GPU 支持 - NVIDIA (CUDA)、AMD (ROCm)、TPU