HuMo: 通过协作多模态条件实现以人为中心的视频生成

发表
Tianxiang MaTianxiang Ma 提交
作者: Liyang ChenLiyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu

摘要

AI 生成总结
HuMo 是一个以人为中心的视频生成的统一框架,它通过两阶段训练范式和新颖的主体保留与音视频同步策略,解决了多模态控制中的挑战。
以人为中心的视频生成(HCVG)方法旨在从包括文本、图像和音频在内的多模态输入中合成人类视频。现有的方法由于两个挑战,在有效协调这些异构模态方面存在困难:具有成对三元组条件的训练数据稀缺,以及利用多模态输入协作主体保留和视听同步子任务的困难。在这项工作中,我们提出了 HuMo,一个用于协作多模态控制的统一 HCVG 框架。针对第一个挑战,我们构建了一个高质量的数据集,包含多样化的成对文本、参考图像和音频。针对第二个挑战,我们提出了一种具有任务特定策略的两阶段渐进式多模态训练范式。对于主体保留任务,为了保持基础模型的提示遵循和视觉生成能力,我们采用了最小侵入性图像注入策略。对于视听同步任务,除了常用的音频交叉注意力层外,我们还提出了一种通过预测来聚焦的策略,该策略隐式地引导模型将音频与面部区域关联起来。为了联合学习多模态输入中的可控性,我们构建在先前获得的能力之上,渐进地融入视听同步任务。在推理过程中,为了实现灵活且细粒度的多模态控制,我们设计了一种时间自适应无分类器引导策略,该策略可以动态调整去噪步骤中的引导权重。大量的实验结果表明,HuMo 在子任务上超越了专业的最新方法,为协作多模态条件化的 HCVG 建立了一个统一的框架。项目主页:https://phantom-video.github.io/HuMo
查看 arXiv 页面查看 PDF

评论

Tianxiang MaTianxiang Ma
论文提交者

项目页面:https://phantom-video.github.io/HuMo/