AnimeShooter:一个用于参考引导视频生成的多镜头动画数据集

发表
Yizhuo LiYizhuo Li 提交
作者: qiuluLu Qiu, Yizhuo LiYizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu

摘要

AI生成内容 (AIGC) 的最新进展显著加速了动画制作。要制作引人入胜的动画,生成具有叙事脚本和角色参考的连贯多镜头视频片段至关重要。然而,现有公共数据集主要关注具有全局描述的现实世界场景,并且缺乏用于一致角色指导的参考图像。为弥补这一差距,我们提出了AnimeShooter,一个参考引导的多镜头动画数据集。AnimeShooter通过自动化流程,实现了全面的分层标注和跨镜头间的强视觉一致性。故事级标注提供了叙事概览,包括故事情节、关键场景和带参考图像的主要角色档案,而镜头级标注则将故事分解为连续镜头,每个镜头都标注了场景、角色以及叙事性和描述性视觉字幕。此外,一个专用子集AnimeShooter-audio为每个镜头提供了同步音轨,以及音频描述和音源。为展示AnimeShooter的有效性并为参考引导的多镜头视频生成任务建立基线,我们引入了AnimeShooterGen,它利用多模态大型语言模型 (MLLMs) 和视频扩散模型。参考图像和先前生成的镜头首先由MLLM处理,以产生兼顾参考和上下文的表示,然后将其用作扩散模型的条件,以解码后续镜头。实验结果表明,在AnimeShooter上训练的模型实现了卓越的跨镜头视觉一致性和对参考视觉指导的遵循,这突显了我们的数据集在生成连贯动画视频方面的价值。
查看 arXiv 页面查看 PDF

评论

Yizhuo LiYizhuo Li
论文作者
论文提交者

隆重推出 AnimeShooter 🎬:一个用于连贯视频生成的、参考引导的多镜头动画数据集!我们的数据集特点包括:

  • **分层标注**(故事/镜头级别),附带角色参考图像
  • 通过自动化流程实现镜头间**强一致性**
  • 带有同步音轨的**音频子集**(AnimeShooter-audio)
  • 结合了多模态大语言模型(MLLMs)和扩散模型的**基线模型**(AnimeShooterGen)

资源

  • 📽️ 项目页面:[qiulu66.github.io/animeshooter]( https://qiulu66.github.io/animeshooter)
  • 📄 论文:[arxiv.org/abs/2506.03126](https://arxiv.org/abs/2506.03126)
  • 💻 代码:[github.com/qiulu66/Anime-Shooter](https://github.com/qiulu66/Anime-Shooter)
  • 🗂️ 数据集:[huggingface.co/datasets/qiulu66/AnimeShooter](https://huggingface.co/datasets/qiulu66/AnimeShooter)
  • 🤖 模型:[huggingface.co/qiulu66/AnimeShooterGen](https://huggingface.co/qiulu66/AnimeShooterGen)