⏶43
使用高质量合成数据集进行基于指令的视频编辑的扩展
发表
由
Qingyan 提交

作者:
Qingyan Bai,
Qiuyu Wang, Hao Ouyang,
Yue Yu, Hanlin Wang,
Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen


摘要
AI 生成总结
Ditto 框架通过生成大型数据集并使用课程学习策略训练 Editto 来解决基于指令的视频编辑中的数据稀缺问题,从而实现了卓越的指令遵循能力。基于指令的视频编辑有望使内容创作民主化,但其进展受到大型、高质量训练数据稀缺的严重阻碍。我们介绍了 Ditto,一个旨在解决这一根本性挑战的整体框架。Ditto的核心是一个新颖的数据生成管道,它将领先的图像编辑器的创造性多样性与上下文视频生成器相结合,克服了现有模型的局限性。为了使这一过程可行,我们的框架通过采用高效的、经过蒸馏的模型架构并辅以时间增强器来解决成本-质量的权衡问题,该增强器同时减少了计算开销并提高了时间连贯性。最后,为了实现完全的可扩展性,整个管道由一个智能代理驱动,该代理会生成多样化的指令并严格过滤输出,以确保大规模的质量控制。利用这个框架,我们投入了超过 12,000 个 GPU 天来构建 Ditto-1M,这是一个包含一百万个高保真视频编辑示例的新数据集。我们在 Ditto-1M 上使用课程学习策略训练了我们的模型 Editto。结果证明了其卓越的指令遵循能力,并在基于指令的视频编辑领域树立了新的最先进水平。
项目主页:https://editto.net
代码:https://github.com/EzioBy/Ditto
数据集:https://huggingface.co/datasets/QingyanBai/Ditto-1M