AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

PPO 强化学习算法 Proximal Policy Optimization · PPO

一种稳定的策略梯度强化学习算法,常用于 RLHF 中在奖励信号指导下优化语言模型策略。

分类:training 类型:method 别名:PPO

PPO(Proximal Policy Optimization)通过对策略更新步长施加约束(例如 KL 惩罚或截断比率),在保持样本效率的同时避免策略发生过大偏移,是现代强化学习中应用最广的 On-policy 算法之一。

在 RLHF 场景中,PPO 用于在固定的奖励模型指导下微调语言模型,优化其输出分布,使之更符合人类偏好与安全约束。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记