⏶33
无需标签即可进化语言模型:多数驱动选择,新颖性促进变异
发表
由
Wenhao Yu 提交

作者:
Yujun Zhou,
Zhenwen Liang, Haolin Liu, Wenhao Yu,
Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu
摘要
AI 生成总结
EVOL-RL 是一种无标签强化学习方法,通过平衡稳定性和变异性来增强大型语言模型,防止熵崩塌并提高泛化能力。大型语言模型(LLM)越来越多地通过可验证奖励的强化学习(RLVR)进行训练,但实际部署需要模型能够在没有标签或外部评估器的情况下自我改进。现有的无标签方法,如置信度最小化、自一致性或多数投票目标,可以稳定学习,但会逐渐缩小探索范围,导致熵崩溃:生成内容变得更短、多样性更低且脆弱。与主要适应手头即时无标签数据集的测试时强化学习(TTRL)等先前方法不同,我们的目标更广泛:在不牺牲模型固有的探索能力和泛化能力的情况下实现通用改进,即进化。我们形式化了这个问题,并提出了进化导向和无标签强化学习(EVOL-RL),这是一个在无标签设置下结合稳定性和变化性的简单规则。EVOL-RL将多数投票的答案作为一个稳定的锚点(选择),同时增加了一个新颖性感知奖励,该奖励偏好那些推理与已生成内容不同的响应(变化),在语义空间中衡量。EVOL-RL使用GRPO实现,还使用不对称裁剪来保留强信号,并使用熵正则器来维持搜索。这种多数投票选择+新颖性变化的组合设计防止了崩溃,保持了更长、更具信息量的思维链,并同时提高了pass@1和pass@n。EVOL-RL的性能始终优于仅多数投票的TTRL基线;例如,在无标签的AIME24上训练将Qwen3-4B-Base AIME25的pass@1从TTRL的4.6%提高到16.4%,pass@16从18.5%提高到37.9%。EVOL-RL不仅防止了多样性崩溃,还解锁了跨领域(例如GPQA)的更强泛化能力。此外,我们证明EVOL-RL也能在RLVR设置中提高性能,突显了其广泛的适用性。
在无标签的情况下进化语言模型:多数驱动选择,新颖促进变异