AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

分词与 Token 化 Tokenization

将原始文本切分为模型可处理的离散 Token 序列的过程,是大语言模型输入输出的基础步骤。

分类:foundation 类型:concept 别名:分词, Token 化, 切词

Token 化(Tokenization)指的是将原始文本转换为整数 ID 序列的过程,常见做法是先用 BPE、SentencePiece 等算法构建子词词表,再将字符串按规则切分为 Token。不同分词策略会影响上下文长度消耗、跨语言表现以及对特殊符号(空格、标点、代码)的处理。

在使用 OpenAI API、Hugging Face Transformers 等框架时,正确估算 Token 数量关系到费用与延迟;而在模型训练与评估阶段,词表设计也会影响模型对长词、专有名词和混合语言输入的鲁棒性。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记