看见声音:使用 Mirage 从音频生成 A-Roll 视频

发表
Hyoung-Kyu SongHyoung-Kyu Song 提交
作者: aditi sundararamanAditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu SongHyoung-Kyu Song, Jon KylJon Kyl, Justin Mao, Kevin LanKevin Lan, Mojtaba Komeili, ShahRukh AtharShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter

摘要

从专业电影制作到用户生成内容,创作者和消费者长期以来都认识到,视频的力量取决于我们所听(视频的音轨)与我们所看(视频的图像序列)的和谐整合。当前的视频生成方法要么忽略声音,专注于通用但无声的图像序列生成;要么同时处理视觉和音频元素,但仅限于配音等受限应用领域。我们推出了 Mirage,这是一个音频到视频的基础模型,它擅长根据音频输入从头开始生成逼真、富有表现力的输出图像。当与现有的语音合成方法(文本到语音,或 TTS)结合时,Mirage 能够生成引人入胜的多模态视频。当在人们说话的音视频素材(A-roll)上进行训练,并以包含语音的音频为条件时,Mirage 可以生成人们对输入音频中隐含的表演进行可信演绎的视频。我们的核心技术贡献是一种统一的方法,用于训练基于自注意力机制的音频到视频生成模型,无论是从头开始还是使用现有权重。这种方法使 Mirage 作为一种音频到视频生成方法能够保持通用性,同时其输出的主观质量优于那些集成音频特定架构或针对人物、语音或图像/音频捕获细节的损失分量的方法。我们鼓励读者亲身体验 Mirage 的生成效果(请参阅论文和评论中的链接)。
查看 arXiv 页面查看 PDF

评论

Hyoung-Kyu SongHyoung-Kyu Song
论文作者
论文提交者

随着我们技术报告的发布,我们将揭示 Mirage 背后的奥秘。

Mirage,我们的全模态基础模型,能够生成看起来和感觉起来都像真人的富有表现力的角色。

Mirage 的独特之处在于它能够生成:

  • 根据上传的音频生成不存在的人物

  • 由音频驱动的肢体语言和表情

  • 全范围的情绪

  • 自然的皮肤纹理,避免了人工智能特有的“光泽感”

更多视频生成结果请访问我们的项目页面