⏶8
FairyGen: 基于单个儿童手绘角色的叙事动画视频
发表
由
Xiaodong Cun 提交

作者: Jiayi Zheng,
Xiaodong Cun

摘要
我们提出了 FairyGen,一个自动化系统,用于从单个儿童绘画生成故事驱动的卡通视频,同时忠实地保留其独特的艺术风格。与之前主要关注角色一致性和基本运动的讲故事方法不同,FairyGen 明确地将角色建模与风格化背景生成解耦,并融入电影镜头设计以支持富有表现力和连贯的讲故事。给定一个单一的角色草图,我们首先使用 MLLM(多模态大型语言模型)生成一个结构化的故事板,其中包含镜头级别的描述,具体说明环境设置、角色动作和摄像机视角。为了确保视觉一致性,我们引入了一个风格传播适配器,它捕获角色的视觉风格并将其应用于背景,忠实地保留角色的完整视觉特征,同时合成风格一致的场景。一个镜头设计模块通过基于故事板的帧裁剪和多视图合成,进一步增强了视觉多样性和电影品质。为了动画化故事,我们重建角色的 3D 代理以导出物理上合理的运动序列,然后用于微调基于 MMDiT(多模态扩散变换器)的图像到视频扩散模型。我们进一步提出了一个两阶段运动定制适配器:第一阶段从时间无序的帧中学习外观特征,将身份与运动解耦;第二阶段使用时间步长偏移策略(带有冻结的身份权重)建模时间动态。一旦训练完成,FairyGen 直接渲染与故事板对齐的各种连贯视频场景。大量实验表明,我们的系统生成的动画在风格上忠实,叙事上结构化,运动自然,突出了其在个性化和引人入胜的故事动画方面的潜力。代码将发布在 https://github.com/GVCLab/FairyGen
评论

论文作者
论文提交者