⏶6
SpA2V: 利用空间听觉线索进行音频驱动的空间感知视频生成
发表
由
PHAM Trung Kien 提交

作者:
Kien T. Pham, Yingqing He, Yazhou Xing, Qifeng Chen, Long Chen

摘要
音频驱动的视频生成旨在合成与输入音频记录对齐的逼真视频,类似于人类根据听觉输入可视化场景的能力。然而,现有方法主要侧重于探索语义信息,例如音频中发声源的类别,这限制了它们生成具有准确内容和空间构图的视频的能力。相比之下,我们人类不仅可以自然地识别发声源的语义类别,还可以确定其深层编码的空间属性,包括位置和运动方向。这些有用信息可以通过考虑源自声音固有物理特性(如响度或频率)的特定空间指标来阐明。由于以前的方法大多忽略了这一因素,我们提出了 SpA2V,这是第一个明确利用音频中的这些空间听觉线索来生成具有高语义和空间对应关系的视频的框架。SpA2V 将生成过程分解为两个阶段:1) 音频引导的视频规划:我们精心调整了最先进的 MLLM,以执行一项新颖的任务,即利用输入音频中的空间和语义线索来构建视频场景布局 (VSL)。这作为一种中间表示,弥合了音频和视频模态之间的差距。2) 基于布局的视频生成:我们开发了一种高效且有效的方法,将 VSLs 无缝集成到预训练的扩散模型中作为条件指导,从而以无训练的方式实现基于 VSL 的视频生成。大量实验表明,SpA2V 在生成与输入音频语义和空间对齐的逼真视频方面表现出色。

SpA2V 通过利用空间听觉线索并将其通过视频场景布局整合到扩散模型中,生成与输入音频在语义和空间上对齐的真实视频。