📄 PagedAttention
革命性的 KV Cache 内存管理算法,灵感来自操作系统的虚拟内存分页机制:
- 分页存储 - 将 KV Cache 分成固定大小的页,按需分配
- 消除碎片 - 避免传统连续内存的碎片问题
- 内存共享 - 多个序列可共享相同的 prefix 页
- 高效利用 - 内存利用率接近 100%
⚡ Continuous Batching
连续批处理技术,动态管理推理请求:
传统 Batching
等待所有序列完成,GPU 空闲
Continuous Batching
完成即替换,GPU 持续工作
动态调度
实时插入新请求
吞吐提升
显著提高批处理效率
📦 Prefix Caching
自动缓存重复前缀,加速多轮对话和相似请求:
- 自动识别 - 检测相同的 prompt 前缀
- 跨请求共享 - 不同用户可复用缓存
- 显著加速 - 相同前缀推理速度提升数倍
🔮 Speculative Decoding
推测解码技术,用小模型加速大模型推理:
- 草稿模型 - 小模型快速生成候选 token
- 并行验证 - 大模型批量验证
- 延迟降低 - 推理延迟减少 2-3x
🔄 Chunked Prefill
分块预填充,优化长序列处理:
- 分块处理 - 长序列分块计算
- 避免阻塞 - 解码请求不被长时间阻塞
- 更好调度 - 预填充与解码并行