具身Web代理:连接物理-数字领域以实现整合的智能体智能

发表
Yining HongYining Hong 提交
作者: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang

摘要

当今的AI智能体大多是孤立的——它们要么检索并推理从在线获取的大量数字信息和知识;要么通过具身感知、规划和行动与物理世界互动——但很少两者兼顾。这种分离限制了它们解决需要集成物理和数字智能的任务的能力,例如根据在线食谱烹饪、利用动态地图数据导航或使用网络知识解释现实世界地标。我们引入了具身网络智能体,这是一种新型的AI智能体范式,能够流畅地连接具身性与网络规模的推理。为了实现这一概念,我们首先开发了具身网络智能体任务环境,这是一个统一的模拟平台,它将逼真的3D室内外环境与功能性网络接口紧密结合。在此平台基础上,我们构建并发布了具身网络智能体基准,它包含了一系列多样化的任务,包括烹饪、导航、购物、旅游和地理定位——所有这些任务都需要在物理和数字领域进行协调推理,以便系统地评估跨领域智能。实验结果揭示了最先进的AI系统与人类能力之间显著的性能差距,这在具身认知和网络规模知识获取的交叉点上既带来了挑战也创造了机遇。所有数据集、代码和网站均可在我们的项目页面https://embodied-web-agent.github.io/公开获取。
查看 arXiv 页面查看 PDF

评论

Yining HongYining Hong
论文提交者

当今的AI智能体大多是孤立的——它们要么检索并推理海量的在线数字信息和知识;要么通过具身感知、规划和行动与物理世界互动——但很少两者兼顾。这种分离限制了它们解决需要整合物理和数字智能的任务的能力,例如根据在线食谱烹饪、利用动态地图数据导航或使用网络知识解释现实世界地标。我们引入了具身网络智能体(Embodied Web Agents),这是一种为AI智能体设计的新范式,能够流畅地连接具身能力和网络规模推理。为了实现这一概念,我们首先开发了具身网络智能体任务环境,这是一个统一的仿真平台,紧密结合了逼真的3D室内外环境与功能性网络界面。在此平台的基础上,我们构建并发布了具身网络智能体基准(Embodied Web Agents Benchmark),它包含一系列多样化的任务,包括烹饪、导航、购物、旅游和地理定位——所有这些都需要在物理和数字领域进行协同推理,以系统地评估跨领域智能。实验结果揭示了最先进的AI系统与人类能力之间存在显著的性能差距,这在具身认知和网络规模知识获取的交汇处既带来了挑战也提供了机遇。