多样性增强主观问题推理

发表
Zhiyuan FanZhiyuan Fan 提交
作者: Yumeng Wang, Zhiyuan FanZhiyuan Fan, JeffJiayu Liu, Yi R. Fung

摘要

具有长链式思维 (CoT) 能力的大型推理模型 (LRM) 在数学推理和编程等客观任务上表现出色。然而,它们在主观问题上的有效性仍然有限,这类问题可能从不同视角产生不同的回答,且受限于同质化推理的倾向,这种倾向源于在监督微调中对单一“真值”的依赖以及在强化学习中对可验证奖励的依赖。鉴于研究发现增加角色视角能持续提升性能,我们提出了 MultiRole-R1,一个具有多角色视角、旨在增强多样性的框架,以提高主观推理任务的准确性和多样性。MultiRole-R1 采用无监督数据构建流程,该流程生成融入多样化角色视角的推理链。我们进一步通过群组相对策略优化 (GRPO) 结合奖励塑形来运用强化学习,除了可验证的奖励外,还将多样性作为一种奖励信号。凭借专门设计的奖励函数,我们成功地促进了视角多样性和词汇多样性,揭示了推理多样性与准确性之间的正相关关系。我们在六个基准上的实验表明,MultiRole-R1 在增强主观和客观推理方面的有效性和泛化性,展示了在大型推理模型 (LRM) 中进行多样性增强训练的潜力。
查看 arXiv 页面查看 PDF

评论

Zhiyuan FanZhiyuan Fan
论文作者
论文提交者

本文发现,在测试时扩展性(test-time scaling)下,多样性比长度更能预测模型性能。将多样性作为奖励塑造(reward shaping)纳入GRPO训练过程,可以进一步增强模型的推理能力。