⏶42

Ego-R1：用于超长第一人称视频推理的工具思维链

06月16日发表

06月17日由 Tian Shulin 提交

作者: Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu

摘要

我们引入了Ego-R1，这是一个用于对超长（即数天和数周）第一视角视频进行推理的新型框架，它利用结构化的工具思考链（CoTT）过程，由通过强化学习（RL）训练的Ego-R1智能体进行编排。受到人类解决问题策略的启发，CoTT将复杂的推理分解为模块化步骤，RL智能体在每一步调用特定工具，以迭代和协作地回答子问题，处理诸如时间检索和多模态理解等任务。我们设计了一个两阶段训练范式，包括使用CoTT数据对预训练语言模型进行监督微调（SFT），以及利用RL使智能体能够动态地为长距离推理提出逐步工具。为了方便训练，我们构建了一个名为Ego-R1 Data的数据集，其中包含用于SFT的Ego-CoTT-25K和用于RL的Ego-QA-4.4K。此外，我们的Ego-R1智能体在一个新策划的周长视频问答基准Ego-R1 Bench上进行评估，该基准包含来自混合源的人工验证的问答对。大量结果表明，我们的Ego-R1智能体通过动态、工具增强的思考链推理，可以有效应对理解超长第一视角视频的独特挑战，将时间覆盖范围从几小时显著扩展到一周。

查看 arXiv 页面查看 PDF

Tian Shulin

论文作者

论文提交者

查看我们的

项目页面：https://egolife-ai.github.io/Ego-R1/
代码：https://github.com/egolife-ai/Ego-R1

Ego-R1：用于超长第一人称视频推理的工具思维链

摘要

评论