⏶10

InfantAgent-Next：一个用于自动化计算机交互的多模态通用智能体

05月16日发表

05月27日由 Bin Lei 提交

作者: Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, shanzuo Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding

摘要

本文介绍了InfantAgent-Next，这是一个通用智能体，能够以多模态方式与计算机交互，包括文本、图像、音频和视频。与现有方法不同，现有方法要么围绕单个大型模型构建复杂的流程，要么仅提供流程模块化，而我们的智能体在一个高度模块化的架构中集成了基于工具和纯视觉的智能体，使得不同的模型能够以分步方式协作解决解耦的任务。我们的通用性体现在我们不仅能够评估纯基于视觉的真实世界基准（即OSWorld），还能评估更通用或工具密集型的基准（例如GAIA和SWE-Bench）。具体而言，我们在OSWorld上取得了7.27%的准确率，高于Claude-Computer-Use。代码和评估脚本已在https://github.com/bin123apple/InfantAgent开源。

查看 arXiv 页面查看 PDF

Bin Lei

论文作者

论文提交者

本文介绍了 InfantAgent-Next，这是一个通才代理，能够以多模态方式与计算机交互，包括文本、图像、音频和视频。与现有方法要么围绕单一大型模型构建复杂的流程，要么仅提供流程模块化不同，我们的代理在一个高度模块化的架构中集成了基于工具的代理和纯视觉代理，使得不同的模型能够以逐步的方式协作解决解耦的任务。我们的泛化能力体现在我们不仅能够评估纯基于视觉的真实世界基准（即 OSWorld），还能够评估更通用或工具密集型的基准（例如 GAIA 和 SWE-Bench）。具体而言，我们在 OSWorld 上取得了 7.27% 的准确率，高于 Claude-Computer-Use。代码和评估脚本已在 https://github.com/bin123apple/InfantAgent 开源。

InfantAgent-Next：一个用于自动化计算机交互的多模态通用智能体

摘要

评论