⏶19
为智能体构建网络,而非为网络构建智能体
发表
由
Xing Han Lù 提交

作者:
Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy

摘要
大型语言模型(LLMs)和多模态对应模型方面的最新进展,激发了人们对开发网络代理——能够在网络环境中自主导航和完成任务的 AI 系统——的浓厚兴趣。尽管在自动化复杂网络交互方面前景广阔,但由于人类设计的界面与 LLM 能力之间的根本性不匹配,当前方法面临着巨大挑战。当前方法在处理网络输入的固有复杂性方面举步维艰,无论是处理庞大的 DOM 树,还是依赖于附加信息增强的屏幕截图,抑或是通过 API 交互完全绕过用户界面。本立场论文倡导网络代理研究的范式转变:与其强迫网络代理适应为人类设计的界面,我们应该开发一种专门为代理能力优化的新型交互范式。为此,我们引入了代理网络界面(AWI)的概念,这是一种专门为代理导航网站而设计的界面。我们为 AWI 设计建立了六项指导原则,强调安全性、效率和标准化,以兼顾所有主要利益相关者的利益。这种重新定义旨在克服现有界面的根本局限性,为更高效、可靠和透明的网络代理设计铺平道路,这将是一项涉及更广泛 ML 社区的协作努力。
本立场文件主张在网络代理研究中实现范式转变:与其强迫网络代理适应为人类设计的界面,不如开发一种专门为代理能力优化的新型交互范式。为此,我们引入了代理网络接口(AWI)的概念,这是一种专门为代理导航网站而设计的接口。我们为AWI设计确立了六项指导原则,强调安全性、效率和标准化,以兼顾所有主要利益相关者的利益。这一重新定义旨在克服现有接口的根本局限性,为更高效、可靠和透明的网络代理设计铺平道路,这将是一项涉及更广泛机器学习社区的协作努力。