⏶33
Waver:以您的方式生成栩栩如生的视频
发表
由
taesiri 提交

作者: Yifu Zhang, Hao Yang, Yuqi Zhang,
Yifei Hu, Fengda Zhu,
Chuang Lin,
Xiaofeng Mei,
Yi Jiang,
Zehuan Yuan, Bingyue Peng


摘要
我们提出了 Waver,一个用于统一图像和视频生成的高性能基础模型。Waver 可以直接生成时长为 5 到 10 秒、原生分辨率为 720p 的视频,随后可将其 upscaling 至 1080p。该模型在一个单一的集成框架内同时支持文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)的生成。我们引入了一种混合流 DiT 架构,以增强模态对齐并加速训练收敛。为确保训练数据质量,我们建立了一个全面的数据策选流程,并手动标注并训练了一个基于 MLLM 的视频质量模型,以筛选最高质量的样本。此外,我们提供了详细的训练和推理配方,以促进高质量视频的生成。基于这些贡献,Waver 在捕捉复杂运动方面表现出色,在视频合成中实现了卓越的运动幅度和时间一致性。值得注意的是,在 Artificial Analysis 的 T2V 和 I2V 排行榜上,它均位列前三名(截至 2025-07-30 10:00 GMT+8),持续超越现有的开源模型,并能与顶尖的商业解决方案相媲美或超越。我们希望这份技术报告能帮助社区更有效地训练高质量视频生成模型,并加速视频生成技术的发展。官方主页:https://github.com/FoundationVision/Waver。
> 我们提出了 Waver,一个用于统一图像和视频生成的高性能基础模型。Waver 可以直接生成时长为 5 至 10 秒、原生分辨率为 720p 的视频,随后可放大至 1080p。该模型在一个单一的集成框架内同时支持文本到视频 (T2V)、图像到视频 (I2V) 和文本到图像 (T2I) 的生成。我们引入了一种混合流 DiT 架构,以增强模态对齐并加速训练收敛。为了确保训练数据的质量,我们建立了一个全面的数据策选流程,并手动标注和训练了一个基于 MLLM 的视频质量模型,以筛选出最高质量的样本。此外,我们提供了详细的训练和推理配方,以促进高质量视频的生成。基于这些贡献,Waver 在捕捉复杂运动方面表现出色,在视频合成中实现了卓越的运动幅度和时间一致性。值得注意的是,在 Artificial Analysis 的 T2V 和 I2V 排行榜上,Waver 均位列前三名(数据截至 2025-07-30 10:00 GMT+8),持续超越现有的开源模型,并达到或超过了最先进的商业解决方案。我们希望这份技术报告能帮助社区更有效地训练高质量视频生成模型,并加速视频生成技术的发展。