HunyuanCustom:一种多模态驱动的定制化视频生成架构

发表
YSHYSH 提交
作者: Teng Hu, zhentaoyuZhentao Yu, Zhengguang ZhouZhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

摘要

定制化视频生成旨在根据灵活的用户定义条件生成包含特定主题的视频,然而现有方法通常在身份一致性和输入模态受限方面存在困难。在本文中,我们提出了 HunyuanCustom,一个多模态定制化视频生成框架,它强调主体一致性,同时支持图像、音频、视频和文本条件。我们的模型构建于 HunyuanVideo 之上,首先通过引入基于 LLaVA 的图文融合模块来增强多模态理解,以及利用时序连接增强跨帧身份特征的图像 ID 增强模块,解决了图文条件生成任务。为了实现音频和视频条件生成,我们进一步提出了模态特定的条件注入机制:一个通过空间交叉注意力实现层次对齐的 AudioNet 模块,以及一个通过基于 patchify 的特征对齐网络集成潜在压缩条件视频的视频驱动注入模块。在单主体和多主体场景下的广泛实验表明,HunyuanCustom 在 ID 一致性、真实性和文本-视频对齐方面显著优于最先进的开源和闭源方法。此外,我们验证了其在下游任务中的鲁棒性,包括音频和视频驱动的定制化视频生成。我们的结果强调了多模态条件和身份保持策略在推进可控视频生成方面的有效性。所有代码和模型都可在 https://hunyuancustom.github.io 获取。
查看 arXiv 页面查看 PDF

评论

YSHYSH
论文提交者

主页: https://hunyuancustom.github.io/

Evgenii RofeEvgenii Rofe

github 仓库 404

zhouzhou

> github 仓库 404
今天正常了,请尝试一下~