AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

人类反馈强化学习(RLHF) Reinforcement Learning from Human Feedback

通过人类偏好数据训练奖励模型,再结合强化学习让大模型输出更符合人类期望。

分类:training 类型:method 别名:RLHF, 人类反馈强化学习

RLHF 典型流程包含三阶段:首先进行监督式微调(SFT)获得初始策略;随后采集人类对模型输出的排序或评分,训练奖励模型刻画偏好;最后利用强化学习算法(常用 PPO)在奖励信号指导下进一步优化策略模型,以提升可控性与安全性。

该技术广泛用于指令跟随模型与对齐系统,但依赖大量高质量人类标注,且奖励模型偏差可能导致过度优化,需要结合对抗评估与安全审计。

参考资料

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记