分词与 Token 化

分词与 Token 化 Tokenization

将原始文本切分为模型可处理的离散 Token 序列的过程，是大语言模型输入输出的基础步骤。

分类：foundation 类型：concept 别名：分词, Token 化, 切词

Token 化（Tokenization）指的是将原始文本转换为整数 ID 序列的过程，常见做法是先用 BPE、SentencePiece 等算法构建子词词表，再将字符串按规则切分为 Token。不同分词策略会影响上下文长度消耗、跨语言表现以及对特殊符号（空格、标点、代码）的处理。

在使用 OpenAI API、Hugging Face Transformers 等框架时，正确估算 Token 数量关系到费用与延迟；而在模型训练与评估阶段，词表设计也会影响模型对长词、专有名词和混合语言输入的鲁棒性。

打开 GitHub 界面，修改后直接生成 PR