⏶37
AniMaker:MCTS驱动的片段生成实现自动化多智能体动画故事创作
发表
由
Yunxin Li 提交
作者:
Haoyuan Shi,
Yunxin Li, Xinyu Chen, Longyue Wang, Baotian Hu, Min Zhang
摘要
尽管视频生成模型取得了飞速发展,但生成跨多个场景和角色的连贯叙事视频仍然充满挑战。当前的方法通常将预生成的关键帧僵硬地转换为固定长度的片段,导致叙事脱节和节奏问题。此外,视频生成模型固有的不稳定性意味着即使单个低质量片段也可能显著降低整个输出动画的逻辑连贯性和视觉连续性。为了克服这些障碍,我们引入了 AniMaker,一个多智能体框架,它能够高效地生成多候选片段并进行叙事感知的片段选择,从而仅通过文本输入即可创建全局一致且叙事连贯的动画。该框架围绕专业智能体构建,包括用于故事板生成的导演智能体(Director Agent)、用于视频片段生成的摄影智能体(Photography Agent)、用于评估的评审智能体(Reviewer Agent)以及用于编辑和配音的后期制作智能体(Post-Production Agent)。AniMaker 方法的核心是两个关键技术组件:摄影智能体中的 MCTS-Gen,这是一种受蒙特卡洛树搜索(MCTS)启发的高效策略,它智能地探索候选空间以生成高潜力的片段,同时优化资源使用;以及评审智能体中的 AniEval,这是第一个专门为多镜头动画评估设计的框架,它通过考虑每个片段与其前一个和后一个片段的上下文,评估故事层面的一致性、动作完成度和动画特定特征等关键方面。实验表明,AniMaker 在 VBench 和我们提出的 AniEval 框架等常用指标衡量下,实现了卓越的质量,同时显著提高了多候选生成的效率,使人工智能生成的叙事动画更接近生产标准。
我们很高兴推出 AniMaker,这是 Anim-Director 的最新版本,一个专为长视频生成设计的高级框架。通过将整个视频创作过程视为一个连续的空间搜索问题,AniMaker 在扩展的电影序列中实现了高水平的一致性和连贯性。