vLLM 推理引擎

vLLM 推理引擎 vLLM

面向大语言模型的高吞吐推理引擎，以连续批处理与 PagedAttention 技术显著提升 GPU 利用率。

分类：inference 类型：tool 别名：vLLM, Continuous Batching

vLLM 是加州大学伯克利等机构开源的推理引擎，通过 PagedAttention 动态管理 KV Cache，将显存划分为页状结构，配合 continuous batching 在请求到达的同时即时插入执行，避免传统批次切换带来的空转，从而提升吞吐与响应时延的平衡表现。

该项目原生支持 Hugging Face Transformers、OpenAI API 兼容接口与张量并行部署，可在单机多卡或分布式环境中运行，是当前在线服务和批量生成的主流方案之一。

与 TensorRT-LLM 相比：vLLM 更偏通用 Python 生态与快速集成，便于在研究与业务原型中落地；TensorRT-LLM 则深度绑定 NVIDIA 硬件，在极致性能与大规模部署上更有优势。
与 llama.cpp / GGUF 相比：vLLM 主要面向服务器侧 GPU 推理，而 llama.cpp 更偏本地与轻量级硬件；两者在模型格式、量化方案和部署场景上各有侧重。

打开 GitHub 界面，修改后直接生成 PR