⏶17
VideoAgentTrek:从无标签视频中进行计算机使用预训练
发表
由
taesiri 提交
作者:
Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin,
Binyuan Hui, Tao Yu
摘要
AI 生成总结
VideoAgentTrek 使用 Video2Action(一种逆动力学模块)自动从 YouTube 视频中提取 GUI 交互数据,从而提高计算机使用代理的任务成功率和步骤准确性。训练计算机使用代理需要大量的 GUI 交互数据,但大规模手动标注动作轨迹的成本高得令人望而却步。
我们提出了 VideoAgentTrek,一个可扩展的流水线,
它能够自动从网络上公开可用的屏幕录制视频中挖掘训练数据,无需手动标注。
我们的方法解决了一个关键挑战:原始视频包含隐式演示,但缺乏明确的动作标签。
为了解决这个问题,我们开发了 Video2Action,一个包含两个组件的逆动力学模块(IDM):
(1)
一个视频地面模型,用于检测和定位具有精确时间边界和上下文的 GUI 动作,以及
(2) 一个动作内容识别器,以高保真度提取点击坐标和输入文本等结构化参数。
将我们的流水线应用于 39,000 个 YouTube 教程视频,我们自动生成了 152
万个交互步骤。我们通过持续预训练和监督微调来利用这些数据。
在 OSWorld-Verified 上,我们的方法将任务成功率从 9.3%(仅 SFT
基线)提高到 15.8%,相对提高了 70%。在 AgentNetBench 上,步骤准确率从 64.1%
提高到 69.3%。我们的结果表明,被动互联网视频可以转化为计算机使用代理的高质量监督,
为昂贵的手动标注提供了可扩展的替代方案。
训练计算机使用代理需要大量的 GUI 交互数据,但手动大规模标注动作轨迹成本高得令人望而却步。我们提出了 VideoAgentTrek,一个可扩展的流水线,能够自动从网络规模的公开屏幕录制视频中挖掘训练数据,无需手动标注。我们的方法解决了关键挑战:原始视频包含隐式演示,但缺乏明确的动作标签。为此,我们开发了 Video2Action,一个包含两个组件的逆动力学模块(IDM):(1) 一个视频接地模型,以精确的时间边界和上下文检测并定位 GUI 动作;(2) 一个动作内容识别器,以高保真度提取结构化参数,如点击坐标和输入的文本。将我们的流水线应用于 39,000 个 YouTube 教程视频,自动生成了 152 万个交互步骤。我们通过持续预训练和监督微调利用这些数据。在 OSWorld-Verified 上,我们的方法将任务成功率从 9.3%(仅 SFT 基线)提高到 15.8%,相对提高了 70%。在 AgentNetBench 上,步骤准确率从 64.1% 提高到 69.3%。我们的结果表明,被动互联网视频可以转化为计算机使用代理的高质量监督,为昂贵的手动标注提供了一种可扩展的替代方案。