⏶30
混合强化:当奖励稀疏时,密集更好
发表
由
Lin Long 提交

作者:
Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
摘要
AI 生成总结
HERO 是一种强化学习框架,结合了验证器信号和奖励模型分数,以增强大型语言模型中的推理能力,其性能优于仅使用 RM 或仅使用验证器的方法。大型语言模型 (LLM) 的**后训练推理**越来越多地依赖于**可验证奖励**:提供 0-1 正确性信号的**确定性检查器**。虽然可靠,但这种**二元反馈很脆弱**——许多任务允许部分正确或替代答案,而检查器低估了这些答案,并且由此产生的全有或全无的监督限制了学习。**奖励模型**提供更丰富、更**连续的反馈**,可以作为检查器的**补充监督信号**。我们提出了 **HERO (Hybrid Ensemble Reward Optimization)**,一个强化学习框架,它以**结构化的方式**集成检查器信号和奖励模型分数。HERO 采用**分层归一化**将奖励模型分数**限制在检查器定义的组内**,在保留正确性的同时细化质量差异,并采用**方差感知加权**来强调需要密集信号的**挑战性提示**。在各种**数学推理基准**上,HERO 一致优于仅 RM 和仅检查器基线,在**可验证和难以验证**的任务上都取得了强劲的增长。我们的结果表明,混合奖励设计保留了检查器的**稳定性**,同时利用了奖励模型的**细微差别**来促进推理。
HERO(混合集成奖励优化),一个将验证器信号与奖励模型分数以结构化方式集成的强化学习框架。