PPO 强化学习算法 Proximal Policy Optimization · PPO
一种稳定的策略梯度强化学习算法,常用于 RLHF 中在奖励信号指导下优化语言模型策略。
PPO(Proximal Policy Optimization)通过对策略更新步长施加约束(例如 KL 惩罚或截断比率),在保持样本效率的同时避免策略发生过大偏移,是现代强化学习中应用最广的 On-policy 算法之一。
在 RLHF 场景中,PPO 用于在固定的奖励模型指导下微调语言模型,优化其输出分布,使之更符合人类偏好与安全约束。
打开 GitHub 界面,修改后直接生成 PR