AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

DPO 直接偏好优化 Direct Preference Optimization · DPO

一种直接在「好/坏」回答对上优化策略模型的对齐方法,相比 RLHF 不需要单独训练奖励模型。

分类:training 类型:method 别名:DPO, 直接偏好优化

DPO(Direct Preference Optimization)将人类偏好数据直接用于优化策略模型,通过对「优选答案」与「劣选答案」的对比损失,让模型更倾向于输出被人类偏好的结果。与 RLHF 不同,DPO 不再显式构建奖励模型,而是将其隐含在损失函数中,从而简化了训练流程。

在实践中,DPO 常与 SFT 结合使用,用于在已有指令微调模型上进一步做细粒度对齐,减少训练不稳定性和过度优化问题。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记