AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

知识蒸馏 Knowledge Distillation

通过让小模型模仿大模型输出来提升性能的模型压缩与迁移方法。

分类:training 类型:method 别名:知识蒸馏, Distillation

知识蒸馏(Knowledge Distillation)通常采用「教师-学生」架构:先训练或选定一个性能较好的大模型作为教师,再让参数更少的学生模型在相同输入上拟合教师的输出分布(如 soft label、隐藏表示等),从而在保持较高效果的同时显著降低模型规模。

在大模型时代,蒸馏被广泛用于将 GPT-4 等强模型的行为迁移到较小的开源模型上,也常与量化、结构剪枝等压缩技术结合使用。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记