⏶24
智能体用于计算机使用的非凡有效性
发表
由
Xin Eric Wang 提交
作者: Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li,
Xin Eric Wang
摘要
AI 生成总结
Behavior Best-of-N (bBoN) 通过生成和选择多个回滚,并使用行为叙述,提高了计算机使用智能体的可靠性和成功率,在 OSWorld 上取得了最先进的性能,并在不同操作系统上具有很强的泛化能力。计算机使用代理(CUA)有望自动化日常数字任务,但其不可靠性和高方差阻碍了它们在长视线、复杂任务中的应用。我们介绍了行为最佳 N(bBoN),一种通过生成多个回放并使用描述代理回放的行为叙述来选择它们的方法,可以跨代理进行扩展。它能够进行广泛的探索和原则性的轨迹选择,从而大大提高鲁棒性和成功率。在 OSWorld 上,我们的 bBoN 扩展方法取得了 69.9% 的新状态(SoTA),显著优于先前的方法,接近人类水平的 72%,并且全面的消融验证了关键设计选择。我们还展示了在 WindowsAgentArena 和 AndroidWorld 上对不同操作系统具有强大的泛化结果。至关重要的是,我们的结果强调了在正确进行 CUA 扩展时的“不合理有效性”:有效的扩展需要结构化的轨迹理解和选择,而 bBoN 提供了一个实用的框架来实现这一点。
📄 论文:http://arxiv.org/abs/2510.02250
💻 代码:http://github.com/simular-ai/Agent-S
📝 博客:http://simular.ai/articles/agent-s3