AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

监督式微调(SFT) Supervised Fine-tuning

在大模型预训练基础上,以标注示例的监督学习方式对齐模型行为的常见手段。

分类:training 类型:method 别名:SFT, 指令微调

SFT 通过将模型输出与高质量示例对齐,显式最小化参考答案与模型输出之间的损失,是构建指令跟随模型与对话助手的第一步。常用数据来源包括人工编写的提示-回答对、人工扩写的对话、以及由模型生成后再人工审核的合成数据。

在工程实践中,SFT 会结合参数高效微调(如 LoRA)和混合精度训练来降低成本,也需通过覆盖多场景、多任务的指令集减少过拟合,以为后续 RLHF 或 DPO 等对齐阶段提供良好初始策略。

参考资料

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记