📘 项目简介

vLLM 是一个高吞吐量、内存高效的 LLM 推理和服务引擎。由 UC Berkeley Sky Computing Lab 开发,现已成为社区驱动的开源项目。

🎯 核心优势

相比 HuggingFace Transformers 和 TGI,吞吐量提升高达 24x,KV Cache 内存浪费极低。

为什么选择 vLLM?

📄 PagedAttention

类虚拟内存管理,消除内存碎片

⚡ Continuous Batching

动态批处理,提升 GPU 利用率

🔌 OpenAI 兼容

无缝切换,零代码改动

🚀 高吞吐量

比同类系统快 24 倍

🤗 HuggingFace 集成

支持主流开源模型

📊 分布式支持

Tensor/Data Parallelism

🚀 快速开始

# 安装
pip install vllm

# 启动服务
vllm serve meta-llama/Llama-3.2-3B-Instruct

# 调用 API
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{"model": "meta-llama/Llama-3.2-3B-Instruct", "prompt": "Hello"}'

🎯 核心技术

技术 说明
PagedAttention 分页式 KV Cache 内存管理
Continuous Batching 连续批处理,动态调度
Prefix Caching 前缀缓存,加速重复推理
Speculative Decoding 推测解码,降低延迟
Chunked Prefill 分块预填充,优化长序列

📊 项目数据

  • GitHub Stars - 35K+
  • 开发机构 - UC Berkeley
  • 许可证 - Apache 2.0
  • 支持模型 - Llama、Mistral、Qwen、Gemma 等
  • GPU 支持 - NVIDIA (CUDA)、AMD (ROCm)、TPU
下一页:核心特性 →