推测解码 · AI 专业名词百科

推测解码 Speculative Decoding

利用快而小的草稿模型批量生成候选 Token，再由大模型并行验证，以在不明显牺牲质量的前提下加速推理。

分类：inference 类型：method 别名：Speculative Decoding, 推测采样

推测解码（Speculative Decoding）将生成过程拆分为「草稿模型」与「验证模型」两部分：先让较小、速度更快的模型一次性生成一串候选 Token，然后由较大的目标模型对这些候选进行并行验证与修正。相比逐 Token 采样，这种方式可以显著提高吞吐、降低延迟。

该技术适用于对延迟敏感的对话系统与批量生成任务，常与 KV Cache、连续批处理（Continuous Batching）、高效注意力实现（如 FlashAttention）结合使用。实际部署中，需要根据任务容忍的质量损失来选择草稿模型规模与校验策略。

打开 GitHub 界面，修改后直接生成 PR