⏶3
MS4UI:一个用于用户界面教学视频多模态摘要的数据集
发表
由
Franck Dernoncourt 提交
作者: Yuan Zang, Hao Tan, Seunghyun Yoon,
Franck Dernoncourt, Jiuxiang Gu, Kushal Kafle, Chen Sun, Trung Bui
摘要
我们研究教学视频的多模态摘要,其目标是为用户提供一种高效的方式来学习技能,形式包括文本指令和关键视频帧。我们发现现有的基准侧重于通用的语义级视频摘要,不适合提供分步可执行的指令和插图,而这对于教学视频至关重要。为了填补这一空白,我们提出了一个针对用户界面(UI)教学视频摘要的新基准。我们收集了一个包含 2,413 个 UI 教学视频的数据集,总时长超过 167 小时。这些视频进行了人工标注,包括视频分割、文本摘要和视频摘要,这使得对简洁可执行的视频摘要进行全面评估成为可能。我们在收集的 MS4UI 数据集上进行了广泛的实验,结果表明最先进的多模态摘要方法在 UI 视频摘要上表现不佳,并强调了开发新的 UI 教学视频摘要方法的重要性。
评论
论文作者
论文提交者
此评论已隐藏。