InfantAgent-Next:一个用于自动化计算机交互的多模态通用智能体

发表
Bin LeiBin Lei 提交
作者: Bin LeiBin Lei, Weitai KangWeitai Kang, Zijian Zhang, Winson Chen, Xi Xie, shanzuoShan Zuo, Mimi Xie, Ali PayaniAli Payani, Mingyi HongMingyi Hong, Yan Yan, Caiwen Ding

摘要

本文介绍了InfantAgent-Next,这是一个通用智能体,能够以多模态方式与计算机交互,包括文本、图像、音频和视频。与现有方法不同,现有方法要么围绕单个大型模型构建复杂的流程,要么仅提供流程模块化,而我们的智能体在一个高度模块化的架构中集成了基于工具和纯视觉的智能体,使得不同的模型能够以分步方式协作解决解耦的任务。我们的通用性体现在我们不仅能够评估纯基于视觉的真实世界基准(即OSWorld),还能评估更通用或工具密集型的基准(例如GAIA和SWE-Bench)。具体而言,我们在OSWorld上取得了7.27%的准确率,高于Claude-Computer-Use。代码和评估脚本已在https://github.com/bin123apple/InfantAgent开源。
查看 arXiv 页面查看 PDF

评论

Bin LeiBin Lei
论文作者
论文提交者

本文介绍了 InfantAgent-Next,这是一个通才代理,能够以多模态方式与计算机交互,包括文本、图像、音频和视频。与现有方法要么围绕单一大型模型构建复杂的流程,要么仅提供流程模块化不同,我们的代理在一个高度模块化的架构中集成了基于工具的代理和纯视觉代理,使得不同的模型能够以逐步的方式协作解决解耦的任务。我们的泛化能力体现在我们不仅能够评估纯基于视觉的真实世界基准(即 OSWorld),还能够评估更通用或工具密集型的基准(例如 GAIA 和 SWE-Bench)。具体而言,我们在 OSWorld 上取得了 7.27% 的准确率,高于 Claude-Computer-Use。代码和评估脚本已在 https://github.com/bin123apple/InfantAgent 开源。