Lynx: 实现高保真个性化视频生成

发表
taesiritaesiri 提交
作者: Shen SangShen Sang, Tiancheng ZhiTiancheng Zhi, Tianpei GuTianpei Gu, Jing Liu, Linjie Luo

摘要

AI 生成总结
Lynx 是一种高保真个性化视频合成模型,它使用带有 ID 适配器和 Ref 适配器的扩散 Transformer 来保留身份并保持视频质量。
我们提出了 Lynx,一个用于从单个输入图像进行个性化视频合成的高保真模型。 Lynx 基于开源的 Diffusion Transformer (DiT) 基础模型构建,引入了两个轻量级适配器来确保身份保真度。 ID 适配器采用 Perceiver Resampler 将 ArcFace 派生的面部嵌入转换为紧凑的身份标记以进行条件设置,而 Ref 适配器则集成了一个冻结的参考通道的密集 VAE 特征,通过交叉注意力将精细的细节注入到所有 Transformer 层中。 这些模块共同实现了强大的身份保留,同时保持了时间连贯性和视觉真实感。 通过在由 40 个主体和 20 个无偏提示组成的精心策划的基准上进行评估(产生了 800 个测试用例),Lynx 在面部相似度、提示遵循能力和视频质量方面均表现出色,从而推进了个性化视频生成的最先进技术。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

我们提出了 Lynx,一个用于从单个输入图像合成个性化视频的高保真模型。Lynx 基于开源的 Diffusion Transformer (DiT) 基础模型,引入了两个轻量级适配器以确保身份保真度。ID 适配器使用 Perceiver Resampler 将 ArcFace 导出的面部嵌入转换为紧凑的身份标记以进行条件约束,而 Ref 适配器则集成了一个冻结的参考路径的密集 VAE 特征,通过交叉注意力将精细的细节注入到所有 Transformer 层中。这些模块共同实现了强大的身份保持,同时保持了时间一致性和视觉真实性。通过在包含 40 个主题和 20 个无偏提示的定制基准(产生了 800 个测试用例)上进行评估,Lynx 展现了卓越的面部相似度、具有竞争力的提示遵循能力和强大的视频质量,从而推动了个性化视频生成的最先进水平。

Tianpei GuTianpei Gu
论文作者

更多结果请访问:https://byteaigc.github.io/Lynx/
代码和模型权重即将发布!

aljcaljc

IMG_0826.webp