⏶5

SkyReels-Audio：视频扩散转换器中全向音频条件下的说话肖像

06月01日发表

06月06日由 Qiu Di 提交

作者: Zhengcong Fei, Hao Jiang, Qiu Di Di Qiu, Baoxuan Gu, Youqiang Zhang, Jiahua Wang, Jialin Bai, Debang Li, Mingyuan Fan, Guibin Chen, Yahui Zhou

摘要

音频条件驱动的会说话肖像的生成和编辑，并由文本、图像和视频等多模态输入引导，仍然是一个有待深入探索的领域。本文提出 SkyReels-Audio，一个用于合成高保真、时间连贯的会说话肖像视频的统一框架。我们的框架建立在预训练的视频扩散 Transformer 之上，支持无限长度的生成和编辑，同时通过多模态输入实现多样化和可控的条件控制。我们采用混合课程学习策略，逐步将音频与面部动作对齐，从而实现对长视频序列的细粒度多模态控制。为了增强局部面部连贯性，我们引入了面部遮罩损失和音频引导的无分类器引导机制。滑动窗口去噪方法进一步融合了跨时间段的潜在表示，确保了在扩展时长和不同身份下的视觉保真度和时间一致性。更重要的是，我们构建了一个专用数据管道，用于整理由同步音频、视频和文本描述组成的高质量三元组。全面的基准评估表明，SkyReels-Audio 在唇形同步准确性、身份一致性和逼真面部动态方面取得了卓越性能，尤其是在复杂和具有挑战性的条件下。

查看 arXiv 页面查看 PDF

Qiu Di

论文作者

论文提交者

项目页面：https://skyworkai.github.io/skyreels-audio.github.io/

SkyReels-Audio：视频扩散转换器中全向音频条件下的说话肖像

摘要

评论