⏶4
Atom-Searcher:通过细粒度的原子思维奖励增强代理深度研究
发表
由
deng yong 提交

作者:
Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng

摘要
大型语言模型 (LLM) 展现出卓越的问题解决能力,
但在复杂任务中由于内部知识静态而面临挑战。
检索增强生成 (RAG) 增强了对外部信息的访问,
然而由于工作流程僵化,在多跳推理和战略搜索方面仍然受限。
代理深度研究的最新进展使 LLM 能够
自主地进行推理、搜索和信息综合。然而,目前
依赖基于结果的强化学习 (RL) 的方法面临关键问题,例如梯度冲突和奖励稀疏,限制了性能提升和训练效率。
为了解决这些问题,我们首先提出原子思考,这是一种新颖的 LLM 思考范式,
它将推理分解为细粒度的功能单元。
这些单元由推理奖励模型 (RRM) 进行监督,
RRM 提供原子思考奖励 (ATR) 以进行细粒度指导。
在此基础上,我们提出 Atom-Searcher,一种用于代理深度研究的新颖 RL 框架,
该框架整合了原子思考和 ATR。Atom-Searcher 使用课程启发式奖励计划,
早期优先考虑过程级别的 ATR,然后过渡到结果奖励,
加速了对有效推理路径的收敛。
在七个基准测试上的实验表明,性能始终优于最先进的方法。
主要优势包括:(1) Atom-Searcher 在测试时扩展了计算能力。(2) 原子思考为 RRM 提供了监督锚点,
从而将深度研究任务和 RRM 联系起来。(3) Atom-Searcher 展现出更具可解释性、更像人类的推理模式。

Atom-Searcher 是一个旨在增强大型语言模型(LLM)深度研究能力的新型框架。尽管 LLM 前景广阔,但其静态的内部知识限制了它们处理复杂、多步骤任务的能力。现有的检索增强生成(RAG)和基于结果的强化学习(RL)等方法,由于工作流程僵化、奖励稀疏以及训练过程中梯度冲突等问题,往往表现不佳。
为了克服这些挑战,我们引入了 Atom-Searcher,一个建立在原子思维概念上的新型强化学习框架。该范式将复杂推理分解为细粒度的功能单元。每个“原子思维”都由一个推理奖励模型(RRM)进行评估,从而提供一个细粒度的原子思维奖励(ATR),以指导代理的学习过程。
该框架使用一种受课程学习启发的奖励计划,该计划最初优先考虑高质量的推理过程,然后将重点转移到最终结果上,从而加速了有效解决问题策略的发现。
Atom-Searcher 的主要优势包括:
最先进的性能: 在七个不同的基准测试中,与现有模型相比,实现了持续的改进。
增强的可解释性: 通过分解其思维过程,展现出更类人化和可理解的推理模式。
高效的训练: 减轻了奖励稀疏和梯度冲突的问题,从而实现了更有效的策略优化。
可扩展的计算: 在测试时有效地扩展其计算能力,以处理更复杂的查询。