⏶21
R-WoM:用于计算机使用代理的可检索增强世界模型
发表
由
KaiMei 提交
作者:
Kai Mei, Jiang Guo,
Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
摘要
AI 生成总结
大型语言模型 (LLM) 可以增强数字环境中的决策制定,但由于幻觉和静态知识,在长时序模拟方面存在困难。R-WoM 通过整合外部、最新的知识来提高性能。大型语言模型(LLMs)可以作为世界模型,通过模拟未来状态和预测行动结果来增强数字环境中的智能体决策,有可能消除昂贵的试错探索。然而,这种能力根本上受到 LLMs 倾向于产生幻觉以及它们依赖静态训练知识的限制,这可能导致错误累积,阻碍长时序模拟。为了系统地研究 LLMs 是否适用于世界建模,我们通过三个任务——下一状态识别、全流程规划对齐和里程碑转换识别——来探查世界模型的两个核心能力——未来状态预测和奖励估计。我们的分析表明,虽然 LLMs 能有效地捕捉即时下一状态并识别有意义的状态转换,但它们在全流程规划中的表现会迅速下降。这凸显了 LLMs 在可靠建模长时序环境动态方面的局限性。为了解决这些局限性,我们提出了检索增强世界模型(R-WoM),它通过整合从外部教程中检索到的事实性、最新知识来稳定 LLM 模拟。实验表明,与基线相比,R-WoM 在 OSWorld 上取得了高达 25.3% 的显著改进,在 WebArena 上取得了 18.1% 的显著改进,在长时序模拟方面尤其具有优势。
Arxiv: https://arxiv.org/pdf/2510.11892