⏶5
SkyReels-Audio:视频扩散转换器中全向音频条件下的说话肖像
发表
由
Qiu Di 提交
作者: Zhengcong Fei, Hao Jiang,
Di Qiu, Baoxuan Gu, Youqiang Zhang, Jiahua Wang, Jialin Bai, Debang Li, Mingyuan Fan, Guibin Chen, Yahui Zhou
摘要
音频条件驱动的会说话肖像的生成和编辑,并由文本、图像和视频等多模态输入引导,仍然是一个有待深入探索的领域。本文提出 SkyReels-Audio,一个用于合成高保真、时间连贯的会说话肖像视频的统一框架。我们的框架建立在预训练的视频扩散 Transformer 之上,支持无限长度的生成和编辑,同时通过多模态输入实现多样化和可控的条件控制。我们采用混合课程学习策略,逐步将音频与面部动作对齐,从而实现对长视频序列的细粒度多模态控制。为了增强局部面部连贯性,我们引入了面部遮罩损失和音频引导的无分类器引导机制。滑动窗口去噪方法进一步融合了跨时间段的潜在表示,确保了在扩展时长和不同身份下的视觉保真度和时间一致性。更重要的是,我们构建了一个专用数据管道,用于整理由同步音频、视频和文本描述组成的高质量三元组。全面的基准评估表明,SkyReels-Audio 在唇形同步准确性、身份一致性和逼真面部动态方面取得了卓越性能,尤其是在复杂和具有挑战性的条件下。
项目页面:https://skyworkai.github.io/skyreels-audio.github.io/