UI-Venus-1.5 技术报告

发表
Zhangxuan GuZhangxuan Gu 提交
作者: Veuns-Team, Changlong Gao, Zhangxuan GuZhangxuan Gu, Yulin Liu, xinyu qiuXinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, zeusZhengwen Zeng, beitongzhouBeitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, fengdianFeng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang

摘要

AI 生成总结
UI-Venus-1.5 是一个统一的 GUI 智能体,通过中期训练阶段、在线强化学习和模型合并技术提升了性能。
GUI 智能体已成为自动化数字环境交互的强大范式,但兼顾广泛的通用性和持续强大的任务性能仍具挑战。在本报告中,我们推出了 UI-Venus-1.5,这是一个为稳健的现实应用设计的统一端到端 GUI 智能体。该模型系列包含两个稠密变体(2B 和 8B)和一个混合专家变体(30B-A3B),以满足各种下游应用场景。与之前的版本相比,UI-Venus-1.5 引入了三个关键技术进步:(1) 全面的中期训练阶段,利用 30 多个数据集的 100 亿个 Token 建立基础 GUI 语义;(2) 带有全轨迹展开的在线强化学习,使训练目标与大规模环境中的长时程动态导航相对齐;(3) 通过模型合并构建的单一统一 GUI 智能体,将领域特定模型(定位、网页和移动端)合成为一个凝聚的检查点。广泛的评估表明,UI-Venus-1.5 在 ScreenSpot-Pro (69.6%)、VenusBench-GD (75.0%) 和 AndroidWorld (77.6%) 等基准测试上刷新了最先进性能,显著优于先前的强基准。此外,UI-Venus-1.5 在各种中文移动应用中展示了稳健的导航能力,在现实场景中有效执行用户指令。代码:https://github.com/inclusionAI/UI-Venus;模型:https://huggingface.co/collections/inclusionAI/ui-venus
查看 arXiv 页面查看 PDF

评论

Zhangxuan GuZhangxuan Gu
论文作者
论文提交者

你的 GUI 智能体准备好处理真实工作了吗?🔥

我们已经见过许多出色的 GUI 智能体,但为手机和网站制作一个“稳定的助手”仍然很困难。主要存在三个问题:

1️⃣ 知识鸿沟:AI 经常遗漏不常见的图标,且不了解专业应用的运行方式。
2️⃣ 现实鸿沟:在测试中表现良好的模型在现实任务中往往会失败。
3️⃣ 过于复杂:使用多智能体框架通常成本过高。

UI-Venus-1.5 登场 🚀 —— 来自蚂蚁集团的全新高性能、端到端 GUI 智能体!

与传统方式不同,UI-Venus-1.5 专为现实世界应用而构建:
📱 全能型:单个模型即可处理定位(Grounding)、移动端和网页端任务。
🇨🇳 真实应用支持:全面支持 40+ 款热门中国应用,让 AI 融入日常生活。
⚡ 简单高效:简洁的端到端设计,实现更快速、更可靠的工作。

快来查看并体验 AI 如何真正为您提供帮助! 🐜✨

Zhangxuan GuZhangxuan Gu
论文作者
论文提交者

🔥🔥🔥代码:https://github.com/inclusionAI/UI-Venus
🔥🔥🔥模型:https://huggingface.co/collections/inclusionAI/ui-venus