UI-TARS-2 技术报告:通过多轮强化学习推进 GUI 代理

发表
Zehui ChenZehui Chen 提交
作者: Haoming WangHaoming Wang, Haoyang Zou, Huatong Song, Jamie Jiazhan FengJiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue HuangShijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao WangZihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai ZhaoZhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Catill ZhangYichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge ZhangGe Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

摘要

开发用于图形用户界面(GUI)的自主代理是人工智能中的一项重大挑战。尽管近期原生代理模型的进展通过端到端学习统一了感知、推理、行动和记忆,但数据可扩展性、多轮强化学习(RL)、仅 GUI 操作的局限性以及环境稳定性等问题仍然存在。在本技术报告中,我们提出了 UI-TARS-2,一个以 GUI 为中心的原生代理模型,它通过系统化的训练方法解决了这些挑战:一个用于可扩展数据生成的数据飞轮、一个稳定的多轮 RL 框架、一个整合文件系统和终端的混合 GUI 环境,以及一个用于大规模回放的统一沙盒平台。实证评估表明,UI-TARS-2 相较于其前身 UI-TARS-1.5 取得了显著的改进。在 GUI 基准测试中,它在 Online-Mind2Web 上达到了 88.2,在 OSWorld 上达到了 47.5,在 WindowsAgentArena 上达到了 50.6,在 AndroidWorld 上达到了 73.3,其性能优于 Claude 和 OpenAI 代理等强大的基线模型。在游戏环境中,它在 15 个游戏套件中获得了平均 59.8 的归一化分数,约占人类水平的 60%,并且在 LMGame-Bench 上与前沿的专有模型(例如 OpenAI o3)保持竞争力。此外,该模型能够泛化到长时信息检索任务和软件工程基准测试,这凸显了其在各种代理任务中的鲁棒性。对训练动态的详细分析还为实现大规模代理 RL 的稳定性和效率提供了见解。这些结果强调了 UI-TARS-2 在推进 GUI 代理状态以及在现实世界的交互场景中展现强大泛化能力的潜力。
查看 arXiv 页面查看 PDF

评论

Zehui ChenZehui Chen
论文提交者

UI-TARS-2 技术报告:通过多轮强化学习推进 GUI 智能体

Yury PanikovYury Panikov

谢谢

LianShuQuanLianShuQuan

出色的工作!!!我从1.0版本就开始关注uitars,并撰写了我的论文:https://huggingface.co/papers/2507.22025。未来我希望继续关注uitars2.0。

shanshan

工作非常出色!模型会开源吗?