WebExplorer:用于训练长时序网页代理的探索与演进

发表
Junteng LiuJunteng Liu 提交
作者: Junteng Liu, 李云济Yunji Li, Chi Zhang, Jingyang Li, Ellie ChenAili Chen, Ke JiKe Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He

摘要

AI 生成总结
WebExplorer 是一种用于开发高级网络代理的数据驱动方法,通过系统的数据生成和强化学习,在信息检索任务中取得了最先进的性能。
大型语言模型(LLM)的范式正日益向**代理式应用**转移,而网页浏览能力是检索多样化在线信息来源的基础。然而,现有的开源网页代理要么在复杂任务上的信息检索能力有限,要么缺乏透明的实现。在这项工作中,我们发现关键挑战在于缺乏具有挑战性的信息检索数据。为了解决这一限制,我们引入了 WebExplorer:一种系统性的数据生成方法,采用基于模型的探索以及迭代的、从长到短的查询演变。该方法创建了需要多步推理和复杂网页导航的挑战性查询-答案对。通过利用我们精心策划的高质量数据集,我们成功地开发了先进的网页代理 WebExplorer-8B,该代理经过监督微调,然后进行强化学习。我们的模型支持 128K 的上下文长度和高达 100 次的工具调用回合,从而能够解决长时限问题。在各种信息检索基准测试中,WebExplorer-8B 在其规模下取得了最先进的性能。值得注意的是,作为一个 8B 大小的模型,WebExplorer-8B 在 RL 训练后能够有效地进行平均 16 回合的搜索,在 BrowseComp-en/zh 上取得了比 WebSailor-72B 更高的准确率,并在 WebWalkerQA 和 FRAMES 上取得了高达 100B 参数的模型中的最佳性能。除了这些信息检索任务,我们的模型还在 HLE 基准测试上取得了强大的泛化能力,尽管它仅在知识密集型 QA 数据上进行了训练。这些结果突显了我们的方法是实现长时限网页代理的实用途径。
查看 arXiv 页面查看 PDF

评论

Junteng LiuJunteng Liu
论文提交者

Github: https://github.com/hkust-nlp/WebExplorer

Yury PanikovYury Panikov

谢谢,很有意思!