FocusedAD: 以角色为中心的电影音频描述

发表
Yiren SongYiren Song 提交
作者: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu

摘要

电影音频描述(AD)旨在叙述对白间隙的视觉内容,特别是有益于盲人和视障(BVI)观众。与一般的视频字幕相比,AD 需要情节相关的叙述,并明确提及角色名称,这对电影理解提出了独特的挑战。为了识别活跃的主要角色并关注故事情节相关的区域,我们提出了 FocusedAD,这是一个新颖的框架,可提供以角色为中心的电影音频描述。它包括:(i)角色感知模块(CPM),用于跟踪角色区域并将它们链接到名称;(ii)动态先验模块(DPM),通过可学习的软提示注入来自先前 AD 和字幕的上下文线索;以及(iii)焦点字幕模块(FCM),生成富含情节相关细节和命名角色的叙述。为了克服角色识别的局限性,我们还引入了一个自动管道,用于构建角色查询库。FocusedAD 在多个基准上实现了最先进的性能,包括在 MAD-eval-Named 和我们新提出的 Cinepile-AD 数据集上的强大零样本结果。代码和数据将在 https://github.com/Thorin215/FocusedAD 发布。
查看 arXiv 页面查看 PDF

评论

Yiren SongYiren Song
论文提交者

电影音频描述 (AD) 旨在在无对话片段期间叙述视觉内容,尤其使盲人和视障 (BVI) 观众受益。 与一般的视频字幕相比,AD 需要情节相关的叙述和明确的角色名称引用,这对电影理解提出了独特的挑战。为了识别活跃的主要角色并关注故事情节相关的区域,我们提出了 FocusedAD,这是一个新颖的框架,可提供以角色为中心的电影音频描述。 它包括:(i) 用于跟踪角色区域并将它们链接到名称的角色感知模块 (CPM); (ii) 动态先验模块 (DPM),通过可学习的软提示注入来自先前 AD 和字幕的上下文线索; 以及 (iii) 聚焦字幕模块 (FCM),生成富含情节相关细节和命名角色的叙述。 为了克服角色识别的局限性,我们还引入了一个用于构建角色查询库的自动化管道。 FocusedAD 在多个基准测试中实现了最先进的性能,包括在 MAD-eval-Named 和我们新提出的 Cinepile-AD 数据集上的强大零样本结果。

Sam FlinSam Flin

超级激动看到这个!这绝对是我长期以来在转录方面最大的需求之一。