通过观看电影学习突出音频

发表
Chao HuangChao Huang 提交
作者: Chao Huang, Ruohan Gao, J. M. F. Tsang, Jan Kurcius, Cagdas Bilen, Chenliang Xu, Anurag Kumar, Sanjeel Parekh

摘要

近年来,视频内容的创作和消费显著增加。制作引人入胜的内容需要精心策划视觉和音频元素。虽然通过最佳视点选择或后期编辑等技术进行的视觉线索策划一直是媒体制作的核心,但其天然的对应物——音频——却没有经历同等的进步。这通常会导致视觉和听觉显著性之间出现脱节。为了弥合这一差距,我们引入了一项新颖的任务:视觉引导的声学突出,其目标是根据伴随的视频指导来转换音频,以提供适当的突出效果,最终创造更加和谐的视听体验。我们提出了一个灵活的、基于 Transformer 的多模态框架来解决这项任务。为了训练我们的模型,我们还引入了一个新的数据集——“浑浊混音”数据集,该数据集利用了电影中精心制作的音频和视频,提供了一种自由监督的形式。我们开发了一种伪数据生成过程来模拟混合不佳的音频,通过分离、调整和重新混合这三个步骤来模仿真实世界场景。我们的方法在定量和主观评估中都始终优于多个基线方法。我们还系统地研究了不同类型的上下文指导和数据集难度级别的影响。我们的项目页面在此:https://wikichao.github.io/VisAH/
查看 arXiv 页面查看 PDF

评论

Chao HuangChao Huang
论文提交者

近年来,视频内容的创作和消费显著增加。创作引人入胜的内容需要精心策划视觉和音频元素。尽管视觉提示的策划(通过最佳视角选择或后期编辑等技术实现)一直是媒体制作的核心,但其天然的对应部分——音频——并未经历同等的进步。这常常导致视觉和听觉显著性之间的脱节。为了弥合这一差距,我们引入了一项新颖的任务:视觉引导的声学高亮,旨在转换音频,使其在伴随视频的引导下呈现适当的高亮效果,最终创造更加和谐的视听体验。我们提出了一个灵活的、基于 Transformer 的多模态框架来解决这项任务。为了训练我们的模型,我们还引入了一个新数据集——“混浊混合”数据集,该数据集利用了电影中精心制作的音频和视频,这提供了一种形式的“免费监督”。我们开发了一个伪数据生成流程来模拟混合不佳的音频,通过分离、调整和重新混合这三个步骤模仿真实世界场景。我们的方法在定量和主观评估中都持续优于多个基线。我们还系统地研究了不同类型的上下文引导以及数据集难度级别的影响。

我们的项目页面在这里:https://wikichao.github.io/VisAH/。

代码:https://github.com/WikiChao/VisAH

图库:https://wikichao.github.io/VisAH_Gallery/