R-Zero:从零数据中自我演进的推理大型语言模型

发表
Chengsong HuangChengsong Huang 提交
作者: Chengsong HuangChengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu

摘要

自我进化的SLLM(大型语言模型)通过自主生成、完善并从自身经验中学习,为实现超级智能提供了一条可扩展的路径。然而,现有训练此类模型的方法仍严重依赖大量人工整理的任务和标签,通常通过微调或强化学习进行,这构成了人工智能系统超越人类智能能力发展的根本瓶颈。为了克服这一限制,我们引入了 R-Zero,一个完全自主的框架,可以从零开始生成自身的训练数据。从一个基础LLM开始,R-Zero 初始化两个独立的模型,分别扮演不同的角色:挑战者和解决者。这些模型分别进行优化,并通过互动共同进化:挑战者因提出接近解决者能力边缘的任务而获得奖励,解决者因解决挑战者提出的日益具有挑战性的任务而获得奖励。这个过程产生了一个有针对性的、自我改进的课程,无需任何预先存在的任务和标签。经验证明,R-Zero 显著提高了不同骨干LLM的推理能力,例如,将Qwen3-4B-Base 在数学推理基准上提升了 +6.49,在通用领域推理基准上提升了 +7.54。
查看 arXiv 页面查看 PDF

评论

Chengsong HuangChengsong Huang
论文作者
论文提交者

自进化的LMM(大型语言模型)通过自主生成、完善和从自身经验中学习,为实现超智能提供了可扩展的路径。然而,目前训练这类模型的方法仍然严重依赖大量人工整理的任务和标签,通常通过微调或强化学习进行,这构成了AI系统超越人类智能能力发展的根本瓶颈。为了克服这一限制,我们引入了R-Zero,一个完全自主的框架,它从零开始生成自己的训练数据。R-Zero从一个单一的基础LMM开始,初始化两个具有不同角色的独立模型:一个“挑战者”和一个“解决者”。这些模型分别进行优化,并通过互动共同进化:挑战者因提出接近解决者能力边缘的任务而获得奖励,解决者因解决挑战者提出的越来越有挑战性的任务而获得奖励。这个过程产生了一个有针对性的、自我改进的课程,无需任何预先存在的任务和标签。经验上,R-Zero显著提高了不同骨干LMM的推理能力,例如,将Qwen3-4B-Base在数学推理基准上提升了+6.49,在通用领域推理基准上提升了+7.54。