⏶5
ANCHOR:为 GUI 智能体生成决策分支点数据
发表
由
Jinbiao Wei 提交
作者:
Jinbiao Wei, Yilun Zhao, Kangqi Ni, Arman Cohan
摘要
AI 生成总结
一种名为 Anchor 的轨迹扩展框架,通过识别分支点并基于状态接地的任务变体生成新轨迹,从种子演示中引导出可扩展的桌面监控数据。用于真实桌面环境的端到端 GUI 智能体需要大量的高质量交互数据,但收集人类演示成本昂贵,且现有的合成流水线通常面临任务多样性有限或轨迹噪声大、目标漂移的问题。我们提出了一个轨迹扩展框架 Anchor,该框架从一小组经过验证的种子演示中引导出可扩展的桌面监督。从每个种子出发,我们识别对应于有意义状态变化的决策分支点,并根据当前 GUI 上下文提出新的、基于状态的任务变体。随后,执行智能体遵循提议的指令生成新轨迹,而验证器通过状态感知检查和轨迹级一致性强制任务完成。为了提高监督质量,我们进一步应用任务条件化的步骤级过滤以移除无依据动作,并对分支后段落进行去噪处理以维持意图连贯。在标准桌面基准测试 OSWorld 和 WindowsAgentArena 上的实验表明,在我们的扩展语料库上微调的模型比零样本智能体和代表性合成基准有持续改进,并能跨应用和操作系统泛化。
面向真实桌面环境的端到端 GUI 智能体需要大量高质量的交互数据,但收集人类演示成本高昂,且现有的合成流水线往往面临任务多样性有限或轨迹噪声大、目标漂移等问题。我们提出了一种轨迹扩展框架 Anchor,它能从一小组经过验证的种子演示中引导出可扩展的桌面监督数据。从每个种子出发,我们识别对应于有意义状态变化的决策分支点,并根据当前的 GUI 上下文提出新的、基于状态的任务变体。随后,执行智能体遵循提出的指令生成新轨迹,而验证器通过状态感知检查和轨迹级一致性强制要求任务完成。为了提高监督质量,我们进一步应用任务调节的步骤级过滤以移除无根据的动作,并对分支后的片段进行去噪以保持意图连贯。在标准桌面基准测试 OSWorld 和 WindowsAgentArena 上的实验表明,在我们的扩展语料库上微调的模型相比零样本智能体和代表性的合成基准模型取得了持续改进,并能跨应用和操作系统进行泛化。