Ego-R1:用于超长第一人称视频推理的工具思维链

发表
Tian ShulinTian Shulin 提交
作者: Tian ShulinShulin Tian, Ruiqi WangRuiqi Wang, Hongming Guo, Penghao Wu, Yuhao DongYuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu

摘要

我们引入了Ego-R1,这是一个用于对超长(即数天和数周)第一视角视频进行推理的新型框架,它利用结构化的工具思考链(CoTT)过程,由通过强化学习(RL)训练的Ego-R1智能体进行编排。受到人类解决问题策略的启发,CoTT将复杂的推理分解为模块化步骤,RL智能体在每一步调用特定工具,以迭代和协作地回答子问题,处理诸如时间检索和多模态理解等任务。我们设计了一个两阶段训练范式,包括使用CoTT数据对预训练语言模型进行监督微调(SFT),以及利用RL使智能体能够动态地为长距离推理提出逐步工具。为了方便训练,我们构建了一个名为Ego-R1 Data的数据集,其中包含用于SFT的Ego-CoTT-25K和用于RL的Ego-QA-4.4K。此外,我们的Ego-R1智能体在一个新策划的周长视频问答基准Ego-R1 Bench上进行评估,该基准包含来自混合源的人工验证的问答对。大量结果表明,我们的Ego-R1智能体通过动态、工具增强的思考链推理,可以有效应对理解超长第一视角视频的独特挑战,将时间覆盖范围从几小时显著扩展到一周。
查看 arXiv 页面查看 PDF

评论

Tian ShulinTian Shulin
论文作者
论文提交者

查看我们的