⏶39
UI-Venus 技术报告:使用 RFT 构建高性能 UI 智能体
发表
由
Zhangxuan Gu 提交

作者:
Zhangxuan Gu,
Zhengwen Zeng, Zhenyu Xu, Xingran Zhou, Shuheng Shen, Yunfei Liu, Beitong Zhou, Changhua Meng, Tianyu Xia, Weizhi Chen, Yue Wen, Jingya Dou, Fei Tang, Jinzhen Lin, Yulin Liu, Zhenlin Guo, Yichen Gong, Heng Jia, Changlong Gao, Yuan Guo, Yong Deng, Zhenyu Guo, Liang Chen, Weiqiang Wang

摘要
我们推出了 UI-Venus,这是一个原生 UI 智能体,它仅以屏幕截图作为输入,并基于多模态大语言模型。UI-Venus 基于 Qwen2.5-VL,通过强化微调(RFT)技术,仅使用了数十万高质量训练样本,就在 UI 接地(grounding)和导航任务上均达到了业界顶尖(SOTA)性能。具体来说,UI-Venus 的 7B 和 72B 变体在标准接地基准测试 Screenspot-V2 / Pro 上的得分分别为 94.1% / 50.8% 和 95.3% / 61.9%,超过了之前包括开源的 GTA1 和闭源的 UI-TARS-1.5 在内的 SOTA 基线。为了展示 UI-Venus 的总结和规划能力,我们还在在线 UI 导航竞技场 AndroidWorld 上对其进行了评估,我们的 7B 和 72B 变体分别取得了 49.1% 和 65.9% 的成功率,同样击败了现有模型。为实现这一目标,我们为 UI 接地和导航任务精心设计了奖励函数以及相应的高效数据清洗策略。为了进一步提升导航性能,我们提出了“自进化轨迹历史对齐与稀疏动作增强”方法,该方法优化了历史推理轨迹,并平衡了稀疏但关键的动作分布,从而在复杂的 UI 任务中实现更连贯的规划和更好的泛化能力。我们的贡献包括发布了 SOTA 的开源 UI 智能体、全面的数据清洗协议以及一个用于提升导航性能的新颖自进化框架,这些都将鼓励社区在该领域的进一步研究和发展。代码已在 https://github.com/antgroup/UI-Venus 上提供。
🔥🔥🔥代码: https://github.com/inclusionAI/UI-Venus
🚀🚀🚀模型: https://huggingface.co/collections/inclusionAI/ui-venus-689f2fb01a4234cbce91c56a