World Craft:通过文本创建可视化世界的智能体框架

发表
kaipengkaipeng 提交
作者: Jianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang

摘要

AI 生成总结
World Craft 通过结合结构化支架和多智能体意图分析,使非专家用户能够通过文本描述创建可执行且可视化的 AI 环境。
大语言模型(LLMs)激发了生成式智能体模拟(如 AI Town)来创建“动态世界”,这在娱乐和研究领域具有巨大价值。然而,对于非专家,特别是没有编程技能的人来说,亲自动手定制一个可视化的环境并非易事。在本文中,我们介绍了 World Craft,这是一个智能体化世界创建框架,可通过用户的文本描述创建一个可执行且可视化的 AI 小镇。它由两个主要模块组成:World Scaffold(世界支架)和 World Guild(世界公会)。World Scaffold 是一个结构化且简洁的标准化方案,用于开发交互式游戏场景,作为 LLM 定制可执行的类 AI Town 环境的高效脚手架。World Guild 是一个多智能体框架,用于从粗略的描述中逐步分析用户意图,并为 World Scaffold 合成所需的结构化内容(例如环境布局和素材)。此外,我们通过逆向工程构建了一个高质量的纠错数据集,以增强空间知识并提高布局生成的稳定性和可控性,同时报告了多维度的评估指标以供进一步分析。大量实验表明,我们的框架在场景构建和叙事意图传达方面显著优于现有的商业代码智能体(Cursor 和 Antigravity)以及大模型(Qwen3 和 Gemini-3-Pro),为环境创建的民主化提供了可扩展的解决方案。
查看 arXiv 页面查看 PDF

评论

kaipengkaipeng
论文提交者

https://github.com/HerzogFL/World-Craft

https://cdn-uploads.huggingface.co/production/uploads/65f1713552c38a91e0a445e8/5Qg7OmyQ-cx9kPkZjqLsL.mp4

大型语言模型(LLMs)激发了生成式智能体模拟(如 AI Town)来创建“动态世界”,这在娱乐和研究领域都具有巨大价值。然而,对于非专业人士,特别是没有编程技能的人来说,自己定制一个可视化环境并不容易。在本文中,我们介绍了 World Craft,这是一个智能体化的世界创建框架,通过用户文本描述来创建一个可执行且可视化的 AI 小镇。它由两个主要模块组成:World Scaffold 和 World Guild。World Scaffold 是一种结构化且简明的标准化方案,用于开发交互式游戏场景,作为 LLM 定制可执行的类 AI 小镇环境的高效脚手架。World Guild 是一个多智能体框架,用于从粗略的描述中逐步分析用户的意图,并为 World Scaffold 合成所需的结构化内容(例如环境布局和资产)。此外,我们通过逆向工程构建了一个高质量的纠错数据集,以增强空间知识并提高布局生成的稳定性和可控性,同时报告了多维度的评估指标以便进一步分析。大量的实验表明,我们的框架在场景构建和叙事意图传达方面显著优于现有的商业代码智能体(Cursor 和 Antigravity)以及大型语言模型(Qwen3 和 Gemini-3-Pro),为环境创建的民主化提供了一个可扩展的解决方案。