⏶42
Ego-R1:用于超长第一人称视频推理的工具思维链
发表
由
Tian Shulin 提交

作者:
Shulin Tian,
Ruiqi Wang, Hongming Guo, Penghao Wu,
Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu


摘要
我们引入了Ego-R1,这是一个用于对超长(即数天和数周)第一视角视频进行推理的新型框架,它利用结构化的工具思考链(CoTT)过程,由通过强化学习(RL)训练的Ego-R1智能体进行编排。受到人类解决问题策略的启发,CoTT将复杂的推理分解为模块化步骤,RL智能体在每一步调用特定工具,以迭代和协作地回答子问题,处理诸如时间检索和多模态理解等任务。我们设计了一个两阶段训练范式,包括使用CoTT数据对预训练语言模型进行监督微调(SFT),以及利用RL使智能体能够动态地为长距离推理提出逐步工具。为了方便训练,我们构建了一个名为Ego-R1 Data的数据集,其中包含用于SFT的Ego-CoTT-25K和用于RL的Ego-QA-4.4K。此外,我们的Ego-R1智能体在一个新策划的周长视频问答基准Ego-R1 Bench上进行评估,该基准包含来自混合源的人工验证的问答对。大量结果表明,我们的Ego-R1智能体通过动态、工具增强的思考链推理,可以有效应对理解超长第一视角视频的独特挑战,将时间覆盖范围从几小时显著扩展到一周。
查看我们的
项目页面:https://egolife-ai.github.io/Ego-R1/
代码:https://github.com/egolife-ai/Ego-R1