ReSum:通过上下文摘要解锁长视线搜索智能

发表
Jialong WuJialong Wu 提交
作者: Xixi WuXixi Wu, Kuan Li, Yida ZhaoYida Zhao, Liwen Zhang, Litu OuLitu Ou, Huifeng Yin, zhongwang zhangZhongwang Zhang, Yong Jiang, pengjun xiePengjun Xie, Fei Huang, Minhao ChengMinhao Cheng, Shuai Wang, Hong Cheng, ZhouJingren Zhou

摘要

AI 生成总结
ReSum 是一种具有周期性上下文摘要功能的新颖范式,它通过克服上下文窗口限制,提高了网络智能体在知识密集型任务上的性能,相较于 ReAct 取得了显著改进。
基于大型语言模型(LLM)的网络代理在知识密集型任务上表现强劲,但在 ReAct 等范式中受到上下文窗口限制的阻碍。涉及多个实体、相互关联的关系和高不确定性的复杂查询需要广泛的搜索周期,在达到完整解决方案之前会迅速耗尽上下文预算。为了克服这一挑战,我们引入了 ReSum,一个能够通过定期上下文摘要实现无限探索的新型范式。ReSum 将不断增长的交互历史转换为紧凑的推理状态,保持对先前发现的认识,同时绕过上下文限制。为了适应范式,我们提出了 ReSum-GRPO,将 GRPO 与分段轨迹训练和优势广播集成,以使代理熟悉基于摘要的推理。在不同规模的网络代理上进行的三个基准测试上的广泛实验表明,ReSum 相对于 ReAct 的平均绝对改进为 4.5%,在 ReSum-GRPO 训练后进一步提高了 8.2%。值得注意的是,仅使用 1K 个训练样本,我们的 WebResummer-30B(WebSailor-30B 的 ReSum-GRPO 训练版本)在 BrowseComp-zh 上取得了 33.3% 的 Pass@1,在 BrowseComp-en 上取得了 18.3%,超过了现有的开源网络代理。
查看 arXiv 页面查看 PDF

评论

Jialong WuJialong Wu
论文提交者

基于大型语言模型(LLM)的网络代理在知识密集型任务上表现强劲,但受限于 ReAct 等范式中的上下文窗口限制。涉及多个实体、复杂的相互关系和高不确定性的复杂查询需要进行大量的搜索周期,在到达完整解决方案之前就会迅速耗尽上下文预算。为了克服这一挑战,我们引入了 ReSum,一种能够通过周期性上下文摘要实现无限探索的新颖范式。ReSum 将不断增长的交互历史转换为紧凑的推理状态,从而保持对先前发现的意识,同时绕过了上下文限制。为了适应范式,我们提出了 ReSum-GRPO,将 GRPO 与分段轨迹训练和优势广播相结合,以使代理熟悉基于摘要的推理。在不同规模网络代理上的三个基准测试上的广泛实验表明,ReSum 比 ReAct 平均绝对提高了 4.5%,在 ReSum-GRPO 训练后进一步提高了 8.2%。值得注意的是,仅使用 1K 个训练样本,我们的 WebResummer-30B(ReSum-GRPO 训练的 WebSailor-30B 版本)在 BrowseComp-zh 上达到了 33.3% 的 Pass@1,在 BrowseComp-en 上达到了 18.3%,超过了现有的开源网络代理。

Yury PanikovYury Panikov

谢谢,很有意思

Xixi WuXixi Wu
论文作者

谢谢你的认可