⏶3

MS4UI：一个用于用户界面教学视频多模态摘要的数据集

06月14日发表

06月17日由 Franck Dernoncourt 提交

作者: Yuan Zang, Hao Tan, Seunghyun Yoon, Franck Dernoncourt, Jiuxiang Gu, Kushal Kafle, Chen Sun, Trung Bui

摘要

我们研究教学视频的多模态摘要，其目标是为用户提供一种高效的方式来学习技能，形式包括文本指令和关键视频帧。我们发现现有的基准侧重于通用的语义级视频摘要，不适合提供分步可执行的指令和插图，而这对于教学视频至关重要。为了填补这一空白，我们提出了一个针对用户界面（UI）教学视频摘要的新基准。我们收集了一个包含 2,413 个 UI 教学视频的数据集，总时长超过 167 小时。这些视频进行了人工标注，包括视频分割、文本摘要和视频摘要，这使得对简洁可执行的视频摘要进行全面评估成为可能。我们在收集的 MS4UI 数据集上进行了广泛的实验，结果表明最先进的多模态摘要方法在 UI 视频摘要上表现不佳，并强调了开发新的 UI 教学视频摘要方法的重要性。

查看 arXiv 页面查看 PDF

Franck Dernoncourt

论文作者

论文提交者

此评论已隐藏。