⏶5
Video-Skill-CoT:用于领域自适应视频推理的基于技能的思维链
发表
由
Jaemin Cho 提交

作者: Daeun Lee,
Jaehong Yoon, Jaemin Cho, Mohit Bansal
摘要
尽管思维链(CoT)推理在复杂视频理解方面取得了进展,但现有方法在适应各种视频内容中的特定领域技能(例如,事件检测、空间关系理解、情感理解)时往往会遇到困难。为了解决这个问题,我们提出了 Video-Skill-CoT(又称 Video-SKoT),这是一个自动构建和利用技能感知 CoT 监督以进行领域自适应视频推理的框架。首先,我们构建基于技能的 CoT 注释:我们从训练问题中提取与领域相关的推理技能,将它们聚类到一个共享的技能分类法中,并为每个视频-问题对创建详细的多步 CoT 原理以进行训练。其次,我们引入了一个技能特定专家学习框架。每个专家模块专门处理一部分推理技能,并使用收集到的 CoT 监督通过轻量级适配器进行训练。我们证明了所提出方法在三个视频理解基准上的有效性,其中 Video-SKoT 始终优于强大的基线。我们还对比较不同 CoT 注释流程和多个视频领域中学到的技能进行了深入分析。
https://cdn-uploads.huggingface.co/production/uploads/5ffe32d8942cf3533d364449/wzJPM5mFtc2UCRT64Jc1g.mp4