绝对零度:零数据强化自博弈推理

发表
Andrew ZhaoAndrew Zhao 提交
作者: Andrew Zhao, Yiran WuYiran Wu, Yang YueYang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi WangShenzhi Wang, Qingyun Wu, Zilong ZhengZilong Zheng, Gao Huang

摘要

具有可验证奖励的强化学习(RLVR)通过直接从基于结果的奖励中学习,在增强大型语言模型的推理能力方面展现了潜力。近期在零设置下运行的RLVR工作避免了对推理过程进行监督标注,但仍依赖人工精心整理的问题和答案集合进行训练。高质量、人类生成示例的稀缺性引发了对依赖人工监督的长期可扩展性的担忧,这一挑战在语言模型预训练领域已经很明显。此外,在一个假设未来人工智能超越人类智能的情况下,人类提供的任务可能对超智能系统提供的学习潜力有限。为了解决这些担忧,我们提出了一种名为“绝对零”(Absolute Zero)的新RLVR范式,其中一个单一模型学习提出能够最大化自身学习进度的任务,并通过解决这些任务来提高推理能力,而无需依赖任何外部数据。在此范式下,我们引入了“绝对零推理器”(AZR),一个通过使用代码执行器来验证提出的代码推理任务和答案,从而自我演进其训练课程和推理能力的系统。代码执行器作为一个统一的可验证奖励来源,指导着开放式但有基础的学习。尽管完全没有使用外部数据进行训练,AZR在编程和数学推理任务上取得了整体SOTA性能,优于依赖数万个人工整理的领域内示例的现有零设置模型。此外,我们证明了AZR可以有效地应用于不同模型规模,并与各种模型类别兼容。
查看 arXiv 页面查看 PDF

评论