⏶36
OAgents:构建有效智能体的一项实证研究
发表
由
Zhou 提交
作者: He Zhu,
Tianrui Qin,
King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li,
Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou


摘要
近期,代理式AI(Agentic AI)已成为一个日益流行的研究领域。然而,我们认为当前代理研究实践缺乏标准化和科学严谨性,这使得难以对各种方法进行公平比较。因此,代理框架中不同的设计选择如何影响有效性仍不清楚,衡量其进展也仍然充满挑战。在这项工作中,我们对 GAIA 基准测试和 BrowseComp 进行了系统性的实证研究,以公平严谨的方式考察关键代理组件中流行设计选择的影响。我们发现,缺乏标准评估协议使得先前的工作,即使是开源的,也无法复现,并且在随机运行之间存在显著差异。因此,我们引入了一种更稳健的评估协议来稳定比较。我们的研究揭示了哪些组件和设计对于有效的代理至关重要,而其他一些尽管看起来合理但却是冗余的。基于我们的发现,我们构建并开源了 OAgents,这是一个新的基础代理框架,在开源项目中实现了最先进的性能。OAgents 为各种代理组件提供了模块化设计,促进了代理式AI领域的未来研究。
这是一项关于构建有效代理框架的实证研究,使用了GAIA基准。