⏶10
BTL-UI: 用于 GUI 代理的 Blink-Think-Link 推理模型
发表
由
taesiri 提交

作者: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
摘要
AI 生成总结
一个受大脑启发的框架 Blink-Think-Link,通过模仿认知过程来增强人机界面(GUI)交互,并在数据生成和强化学习奖励方面引入了创新。在 AI 驱动的人机 GUI 交互自动化领域,尽管多模态大型语言模型和强化微调技术取得了显著进展,但一个根本性的挑战依然存在:它们的交互逻辑与自然人机 GUI 交流模式存在显著偏差。
为了弥补这一差距,我们提出了“Blink-Think-Link” (BTL),一个受大脑启发的框架,用于模拟用户与图形界面之间的认知过程。
该系统将交互分解为三个生物学上合理的阶段:(1) Blink - 快速检测和关注相关屏幕区域,类似于眼跳运动;(2) Think - 更高级别的推理和决策,类似于认知规划;(3) Link - 生成可执行命令以进行精确的运动控制,模拟人类的动作选择机制。
此外,我们为 BTL 框架引入了两项关键技术创新:(1) Blink 数据生成 - 一个专门针对 Blink 数据优化的自动标注管道;以及 (2) BTL Reward -- 第一个基于规则的奖励机制,通过过程和结果进行驱动的强化学习。
在此框架的基础上,我们开发了一个名为 BTL-UI 的 GUI 代理模型,该模型在全面的基准测试中,无论是在静态 GUI 理解还是动态交互任务上,都表现出持续的最先进性能。
这些结果为该框架在开发高级 GUI 代理方面的有效性提供了决定性的经验验证。
在人工智能驱动的人机图形用户界面(GUI)交互自动化领域,尽管多模态大型语言模型和强化微调技术取得了显著进展,但一个根本性挑战仍然存在:它们的交互逻辑与自然的人机图形用户界面(GUI)沟通模式存在显著偏差。为了弥合这一差距,我们提出了“Blink-Think-Link”(BTL)框架,这是一个受大脑启发的框架,用于模拟用户与图形用户界面之间的认知过程。该系统将交互分解为三个生物学上合理的阶段:(1)Blink——快速检测和关注相关的屏幕区域,类似于眼球扫视运动;(2)Think——更高级别的推理和决策,模仿认知规划;(3)Link——生成可执行命令以实现精确的运动控制,模拟人类的动作选择机制。此外,我们为 BTL 框架引入了两项关键技术创新:(1)Blink 数据生成——一个专为 blink 数据优化的自动化标注流程;(2)BTL Reward——第一个基于规则的奖励机制,通过过程和结果驱动强化学习。在此框架的基础上,我们开发了一个名为 BTL-UI 的 GUI 智能体模型,该模型在综合基准测试中的静态 GUI 理解和动态交互任务上都表现出了一致的最先进性能。这些结果为开发高级 GUI 智能体提供了该框架有效性的确凿实证验证。