⏶19

为智能体构建网络，而非为网络构建智能体

06月12日发表

06月13日由 Xing Han Lù 提交

作者: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy

摘要

大型语言模型（LLMs）和多模态对应模型方面的最新进展，激发了人们对开发网络代理——能够在网络环境中自主导航和完成任务的 AI 系统——的浓厚兴趣。尽管在自动化复杂网络交互方面前景广阔，但由于人类设计的界面与 LLM 能力之间的根本性不匹配，当前方法面临着巨大挑战。当前方法在处理网络输入的固有复杂性方面举步维艰，无论是处理庞大的 DOM 树，还是依赖于附加信息增强的屏幕截图，抑或是通过 API 交互完全绕过用户界面。本立场论文倡导网络代理研究的范式转变：与其强迫网络代理适应为人类设计的界面，我们应该开发一种专门为代理能力优化的新型交互范式。为此，我们引入了代理网络界面（AWI）的概念，这是一种专门为代理导航网站而设计的界面。我们为 AWI 设计建立了六项指导原则，强调安全性、效率和标准化，以兼顾所有主要利益相关者的利益。这种重新定义旨在克服现有界面的根本局限性，为更高效、可靠和透明的网络代理设计铺平道路，这将是一项涉及更广泛 ML 社区的协作努力。

查看 arXiv 页面查看 PDF

Xing Han Lù

论文作者

论文提交者

本立场文件主张在网络代理研究中实现范式转变：与其强迫网络代理适应为人类设计的界面，不如开发一种专门为代理能力优化的新型交互范式。为此，我们引入了代理网络接口（AWI）的概念，这是一种专门为代理导航网站而设计的接口。我们为AWI设计确立了六项指导原则，强调安全性、效率和标准化，以兼顾所有主要利益相关者的利益。这一重新定义旨在克服现有接口的根本局限性，为更高效、可靠和透明的网络代理设计铺平道路，这将是一项涉及更广泛机器学习社区的协作努力。

为智能体构建网络，而非为网络构建智能体

摘要

评论