AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

TensorRT-LLM TensorRT-LLM

NVIDIA 推出的高性能大模型推理框架,基于 TensorRT 提供量化、图优化和多 GPU 并行等能力。

分类:inference 类型:tool 别名:TensorRT LLM, TRT-LLM

TensorRT-LLM 是 NVIDIA 面向 LLM 推理场景的专用框架,提供算子融合、FP8/INT8 量化、张量并行与流水线并行等优化手段,并与 CUDA Graph、NVLink、InfiniBand 等硬件特性深度集成,以最大化 GPU 利用率。

相比通用框架,TensorRT-LLM 更适合部署在 NVIDIA 官方支持的硬件与云环境中,在延迟敏感和高吞吐场景(对话、搜索、批量生成)中具有明显优势,常与 vLLM、OpenVINO 等其他推理方案进行对比选型。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记