Loong:通过验证器大规模合成长链思考

发表
Xingyue HuangXingyue Huang 提交
作者: Xingyue HuangXingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao YangJunxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao ZhuZihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li

摘要

近年来,大型语言模型(LLMs)在可验证奖励强化学习(RLVR)的驱动下,其推理能力得到了显著提升,特别是在数学和编程等领域,因为这些领域的真实性正确性可以自动评估。然而,由于高质量、可验证数据集的稀缺以及人工监督的高成本,将这种成功推广到其他推理密集型领域仍然具有挑战性。在本研究中,我们提出了 Loong 项目:一个用于在各种推理密集型领域生成和验证大规模合成数据的开源框架。该框架包含两个关键组件:(1) LoongBench,一个精心策划的种子数据集,包含 8,729 个跨 12 个领域(例如,高等数学、化学、逻辑)的人工审核示例,每个示例都配有可执行代码和丰富的元数据;(2) LoongEnv,一个模块化的合成数据生成环境,支持多种提示策略来生成新的问答代码三元组。这两个组件共同构成了一个代理-环境循环,支持强化学习,其中基于 LLM 的代理因生成与代码执行答案一致的思维链(CoT)解决方案而获得奖励。在经验上,我们在广泛的开源和专有 LLMs 上对 LoongBench 进行了基准测试,以评估领域覆盖范围并揭示性能瓶颈。此外,我们对 LoongEnv 生成的合成数据进行了全面的分析,考察了正确性、难度和多样性。代码和文档可在 https://github.com/camel-ai/loong 获取。
查看 arXiv 页面查看 PDF

评论

Xingyue HuangXingyue Huang
论文作者
论文提交者

我们介绍龙项目(Project Loong):该项目专注于为广泛的领域扩展合成数据生成能力,并配备验证器。我们认为合成数据生成至关重要——不仅能解决数据稀缺领域的数据空白,还能通过扩大数据集的可用性来增强数学和编程等领域的推理能力。