⏶9

FocusedAD: 以角色为中心的电影音频描述

04月16日发表

04月18日由 Yiren Song 提交

作者: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu

摘要

电影音频描述（AD）旨在叙述对白间隙的视觉内容，特别是有益于盲人和视障（BVI）观众。与一般的视频字幕相比，AD 需要情节相关的叙述，并明确提及角色名称，这对电影理解提出了独特的挑战。为了识别活跃的主要角色并关注故事情节相关的区域，我们提出了 FocusedAD，这是一个新颖的框架，可提供以角色为中心的电影音频描述。它包括：（i）角色感知模块（CPM），用于跟踪角色区域并将它们链接到名称；（ii）动态先验模块（DPM），通过可学习的软提示注入来自先前 AD 和字幕的上下文线索；以及（iii）焦点字幕模块（FCM），生成富含情节相关细节和命名角色的叙述。为了克服角色识别的局限性，我们还引入了一个自动管道，用于构建角色查询库。FocusedAD 在多个基准上实现了最先进的性能，包括在 MAD-eval-Named 和我们新提出的 Cinepile-AD 数据集上的强大零样本结果。代码和数据将在 https://github.com/Thorin215/FocusedAD 发布。

查看 arXiv 页面查看 PDF

Yiren Song

论文提交者

电影音频描述 (AD) 旨在在无对话片段期间叙述视觉内容，尤其使盲人和视障 (BVI) 观众受益。与一般的视频字幕相比，AD 需要情节相关的叙述和明确的角色名称引用，这对电影理解提出了独特的挑战。为了识别活跃的主要角色并关注故事情节相关的区域，我们提出了 FocusedAD，这是一个新颖的框架，可提供以角色为中心的电影音频描述。它包括：(i) 用于跟踪角色区域并将它们链接到名称的角色感知模块 (CPM)； (ii) 动态先验模块 (DPM)，通过可学习的软提示注入来自先前 AD 和字幕的上下文线索；以及 (iii) 聚焦字幕模块 (FCM)，生成富含情节相关细节和命名角色的叙述。为了克服角色识别的局限性，我们还引入了一个用于构建角色查询库的自动化管道。 FocusedAD 在多个基准测试中实现了最先进的性能，包括在 MAD-eval-Named 和我们新提出的 Cinepile-AD 数据集上的强大零样本结果。

Sam Flin

超级激动看到这个！这绝对是我长期以来在转录方面最大的需求之一。

FocusedAD: 以角色为中心的电影音频描述

摘要

评论