⏶49
Agent World Model:为智能体强化学习构建的无限合成环境
发表
由
Chi 提交
作者: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He
摘要
AI 生成总结
在代码驱动模拟和数据库后端状态转移的合成环境中训练的大语言模型智能体,相比传统的特定基准方法,展示了更优越的分布外(OOD)泛化能力。大语言模型 (LLM) 的最新进展使自主智能体能够执行需要与工具及环境进行多轮交互的复杂任务。然而,由于缺乏多样且可靠的环境,此类智能体训练的规模化受到限制。在本文中,我们提出了智能体世界模型 (AWM),一个全合成环境生成流水线。利用该流水线,我们扩展到了覆盖日常场景的 1,000 个环境,智能体在其中可以与丰富的工具集(平均每个环境 35 个工具)交互并获得高质量的观测。值得注意的是,这些环境由代码驱动并由数据库支持,比 LLM 模拟的环境提供更可靠、更一致的状态转移。此外,与从现实环境中收集轨迹相比,它们能实现更高效的智能体交互。为了证明这一资源的有效性,我们对多轮工具使用智能体进行了大规模强化学习。得益于完全可执行的环境和可访问的数据库状态,我们还能设计可靠的奖励函数。在三个基准测试上的实验表明,仅在合成环境中(而非特定基准环境)训练即可产生强大的分布外泛化能力。代码地址:https://github.com/Snowflake-Labs/agent-world-model。





🚀 隆重推出 Agent World Model (AWM) —— 我们合成了 1,000 个代码驱动环境,包含 3.5 万个工具和 1 万个任务,用于大规模智能体强化学习!
没有真实的 API。没有人工设计。只需 100 个种子名称 → 即可生成功能齐全、由数据库支持并通过 MCP 接口公开的智能体环境。
纯在合成环境中训练的智能体可以泛化到分布外(OOD)基准测试。代码、环境和模型全部开源。🔥
我们使用 GRPO 算法在大规模场景下通过在线强化学习(Online RL)训练 Qwen3 (4B/8B/14B):
⚡ 每个训练步骤包含 1,024 个并行环境实例
🎯 混合奖励:步骤级格式检查 + 任务级结果验证
🧠 历史感知训练:使训练和推理之间的滑动窗口截断保持一致
核心洞察:代码驱动的环境比 LLM 模拟的环境提供更稳定的学习信号,且速度快出几个数量级。
在 3 个分布外基准测试中的结果(AWM 并不针对任何特定的基准测试):
📊 BFCLv3:8B 模型从 53.83 跃升至 65.94 (+12.11)
📊 τ²-bench:极具竞争力,14B 模型 Pass@1 达到 39.03
📊 MCP-Universe:整体表现最佳,8B 模型:6.70 → 11.17
🏆 AWM 是唯一一个在所有三个基准测试上都比 Base 模型有提升的方法。
📄 论文:https://arxiv.org/abs/2602.10090
💻 代码:https://github.com/Snowflake-Labs/agent-world-model
🤗 Huggingface:https://huggingface.co/datasets/Snowflake/AgentWorldModel-1K