⏶2
IFDECORATOR:将指令遵循强化学习与可验证奖励相结合
发表
由
liangtianyi 提交

作者: Xu Guo,
Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen

摘要
可验证奖励强化学习(RLVR)提高了大型语言模型(LLM)的指令遵循能力,但由于难度评估不足而导致训练效率低下。此外,RLVR容易过度优化,即LLM会利用验证捷径,而未能与用户指令的实际意图对齐。我们引入了指令遵循装饰器(IFDecorator),一个将RLVR训练包装成健壮且样本高效的流水线的框架。它由三个组件组成:(1) 一个合作对抗数据飞轮,协同进化指令和混合验证,生成越来越具有挑战性的指令-验证对;(2) IntentCheck,一个强制意图对齐的旁路模块;(3) 绊线,一个通过陷阱指令检测奖励作弊的诊断机制,这些指令会触发并捕获捷径利用行为。我们的Qwen2.5-32B-Instruct-IFDecorator在IFEval上取得了87.43%的准确率,超越了GPT-4o等更大的专有模型。此外,我们证明了在FollowBench上取得了实质性改进,同时保持了通用能力。我们的绊线显示奖励作弊率显著降低。我们将发布模型、代码和数据,以供未来研究。
很好