⏶8

FairyGen: 基于单个儿童手绘角色的叙事动画视频

06月26日发表

06月27日由 Xiaodong Cun 提交

作者: Jiayi Zheng, Xiaodong Cun

摘要

我们提出了 FairyGen，一个自动化系统，用于从单个儿童绘画生成故事驱动的卡通视频，同时忠实地保留其独特的艺术风格。与之前主要关注角色一致性和基本运动的讲故事方法不同，FairyGen 明确地将角色建模与风格化背景生成解耦，并融入电影镜头设计以支持富有表现力和连贯的讲故事。给定一个单一的角色草图，我们首先使用 MLLM（多模态大型语言模型）生成一个结构化的故事板，其中包含镜头级别的描述，具体说明环境设置、角色动作和摄像机视角。为了确保视觉一致性，我们引入了一个风格传播适配器，它捕获角色的视觉风格并将其应用于背景，忠实地保留角色的完整视觉特征，同时合成风格一致的场景。一个镜头设计模块通过基于故事板的帧裁剪和多视图合成，进一步增强了视觉多样性和电影品质。为了动画化故事，我们重建角色的 3D 代理以导出物理上合理的运动序列，然后用于微调基于 MMDiT（多模态扩散变换器）的图像到视频扩散模型。我们进一步提出了一个两阶段运动定制适配器：第一阶段从时间无序的帧中学习外观特征，将身份与运动解耦；第二阶段使用时间步长偏移策略（带有冻结的身份权重）建模时间动态。一旦训练完成，FairyGen 直接渲染与故事板对齐的各种连贯视频场景。大量实验表明，我们的系统生成的动画在风格上忠实，叙事上结构化，运动自然，突出了其在个性化和引人入胜的故事动画方面的潜力。代码将发布在 https://github.com/GVCLab/FairyGen

查看 arXiv 页面查看 PDF

Xiaodong Cun

论文作者

论文提交者

FairyGen: 基于单个儿童手绘角色的叙事动画视频

摘要

评论