字节对编码（BPE）

字节对编码（BPE） Byte Pair Encoding · BPE

一种基于统计合并频繁符号对的子词分词方法，广泛用于 GPT 等大语言模型的 Token 化。

分类：foundation 类型：concept 别名：BPE, 字节对编码

字节对编码（BPE）最初用于压缩算法，后来被引入 NLP 作为子词级分词方案：从字符级词表出发，反复合并语料中出现最频繁的相邻符号对，逐步构建出既能覆盖常见词片段，又能处理未登录词的子词词表。

在大语言模型中，BPE 及其变体（如 SentencePiece、Unigram LM、tiktoken 等）决定了 Token 数量、上下文窗口消耗与跨语言表现，是理解「Prompt Token 数量」「上下文长度」等概念的基础。

打开 GitHub 界面，修改后直接生成 PR