Stand-In:一种用于视频生成的轻量级即插即用身份控制方案

发表
QRQQRQ 提交
作者: Bowen XueBowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li

摘要

在生成式人工智能领域,生成与用户指定身份匹配的高保真人类视频至关重要,但同时极具挑战性。现有方法通常依赖于过多的训练参数,且与其他AIGC工具缺乏兼容性。在本文中,我们提出了Stand-In,一个用于视频生成中身份保持的轻量级即插即用框架。具体来说,我们将一个条件图像分支引入到预训练的视频生成模型中。身份控制通过带有条件位置映射的受限自注意力实现,并且仅需2000对数据即可快速学习。尽管只增加了约1%的额外参数并进行了训练,我们的框架在视频质量和身份保持方面取得了出色的结果,超越了其他全参数训练方法。此外,我们的框架可以无缝集成到其他任务中,例如主体驱动的视频生成、姿态参照的视频生成、风格化和换脸。
查看 arXiv 页面查看 PDF

评论

QRQQRQ
论文提交者

💻 Github: https://github.com/WeChatCV/Stand-In

🚀 网页: https://stand-in-video.github.io/

  • Stand-In 框架: Stand-In 是一个轻量级、即插即用的身份保持视频生成框架。通过仅添加和训练约 1% 的额外参数,它在身份保持、视频质量和提示遵循方面达到了最先进的性能。

  • 无需显式人脸提取器即可注入身份: 在视频生成模型中引入了一个条件图像分支。图像和视频分支通过带有条件位置映射的受限自注意力交换信息,从而能够从小数据集中进行强大的身份学习。

  • 高兼容性和泛化性: 尽管仅在真人数据上进行训练,Stand-In 仍能泛化到卡通、物体和其他领域,并且可以直接应用于姿态引导视频生成、视频风格化和换脸等任务。