SkillFormer:统一的多视角视频理解用于熟练度评估

发表
Edoardo BianchiEdoardo Bianchi 提交
作者: Edoardo BianchiEdoardo Bianchi, Antonio LiottaAntonio Liotta

摘要

评估人类在复杂活动中的技能水平是一个具有挑战性的问题,其应用领域包括体育、康复和训练。在这项工作中,我们提出了SkillFormer,这是一种参数高效的架构,用于从第一人称和第三人称视频中进行统一的多视角熟练度估计。SkillFormer在TimeSformer骨干网络的基础上构建,引入了一个CrossViewFusion模块,该模块利用多头交叉注意力、可学习门控和自适应自校准来融合特定视角的特征。我们利用低秩适应(Low-Rank Adaptation)来仅微调一小部分参数,显著降低了训练成本。事实上,在EgoExo4D数据集上进行评估时,SkillFormer在多视角设置下取得了最先进的准确性,同时表现出卓越的计算效率,与先前的基线相比,使用的参数减少了4.5倍,所需的训练周期减少了3.75倍。它在多个结构化任务中表现出色,证实了多视角集成对于细粒度技能评估的价值。
查看 arXiv 页面查看 PDF

评论

Edoardo BianchiEdoardo Bianchi
论文作者
论文提交者

我们提出 SkillFormer,一种参数高效的架构,用于从第一人称和第三人称视角视频中进行统一的多视角熟练度估计。