⏶90

Seedance 1.0: 探索视频生成模型的边界

06月10日发表

06月12日由 wujie10558@gmail.com 提交

作者: Yu Gao, Haoyuan Guo, Tuyen Hoang, Weilin Huang, Lu Jiang, Fangyuan Kong, HXLee Huixia Li, Jiashi Li, Liang Li, Xiaojie Li, Xunsong Li, Yifu Li, Shanchuan Lin, Zhijie Lin, Jiawei Liu, Shu Liu, Xiaonan Nie, Zhiwu Qing, Yuxi Ren, Li Sun, Zhi Tian, Rui Wang, Sen Wang, Guoqiang Wei, Guohong Wu, wujie10558@gmail.com Jie Wu, Ruiqi Xia, Fei Xiao, Xuefeng Xiao, Jiangqiao Yan, Ceyuan Yang, Jianchao Yang, Runkai Yang, Tao Yang, Yihang Yang, Zilyu Ye, Xuejiao Zeng, Yan Zeng, Heng Zhang, Yang Zhao, Xiaozheng Zheng, Peihao Zhu, Jiaxin Zou, Feilong Zuo

摘要

扩散模型领域的显著突破推动了视频生成的快速改进，但当前的基础模型在同时平衡提示遵循、运动合理性和视觉质量方面仍面临严峻挑战。在本报告中，我们引入了 Seedance 1.0，一个高性能、推理高效的视频基础生成模型，它整合了多项核心技术改进：(i) 多源数据整理，辅以精确和有意义的视频字幕，实现跨多样化场景的全面学习；(ii) 高效的架构设计和提出的训练范式，原生支持多镜头生成以及文本到视频和图像到视频任务的联合学习； (iii) 精心优化的后训练方法，利用细粒度监督微调以及带有多维奖励机制的视频专用 RLHF，以实现全面性能提升； (iv) 卓越的模型加速，通过多阶段蒸馏策略和系统级优化实现约 10 倍的推理速度提升。 Seedance 1.0 仅需 41.4 秒（NVIDIA-L20）即可生成 5 秒 1080p 分辨率的视频。与现有最先进的视频生成模型相比，Seedance 1.0 以高质量和快速视频生成脱颖而出，具有卓越的时空流畅性和结构稳定性、在复杂多主体背景下精确遵循指令以及原生多镜头叙事连贯性和一致的主体表现。

查看 arXiv 页面查看 PDF

wujie10558@gmail.com

论文作者

论文提交者

Seedance 1.0 技术报告

Seedance 1.0: 探索视频生成模型的边界

摘要

评论