一生学习:从无指导探索中推断随机环境的符号世界模型

发表
Zaid KhanZaid Khan 提交
作者: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal

摘要

AI 生成总结
OneLife 框架使用概率编程框架内的条件激活程序化定律来模拟复杂、随机的环境,从而能够从最少、无指导的交互中学习,并在状态排名和保真度方面优于基线。
符号化世界建模需要将环境的转换动力学推断和表示为可执行程序。 以往的工作主要集中在具有丰富交互数据、简单机制和人类指导的大部分确定性环境中。 我们解决了一个更现实、更具挑战性的场景,即在复杂、随机的环境中进行学习, 而智能体只有“一次生命”来探索一个敌对的环境,且没有人类指导。 我们引入了OneLife,一个通过概率编程框架内的条件激活的程序化规则来建模世界动力学的框架。 每个规则通过一个前置条件-效应结构运行,在相关的世界状态下激活。 这创建了一个动态计算图,只通过相关的规则进行推理和优化, 从而避免了当所有规则都为复杂、分层的状态的预测做出贡献时的扩展挑战, 并能够学习随机动力学,即使规则激活稀疏。 为了在这些严苛的约束下评估我们的方法,我们引入了一种新的评估协议, 该协议衡量(a)状态排序,即区分可能和不可能的未来状态的能力, 以及(b)状态保真度,即生成与现实密切相似的未来状态的能力。 我们在一Life-OO上开发并评估了我们的框架,这是我们对Crafter环境的重新实现, 它暴露了一个结构化的、面向对象的符号状态以及一个仅在该状态上运行的纯转换函数。 OneLife能够从最少的、未经引导的交互中成功学习关键的环境动力学, 在测试的23个场景中有16个场景的性能优于强大的基线。 我们还测试了OneLife的规划能力,模拟的滚转成功地识别了更优越的策略。 我们的工作为未知、复杂环境的程序化世界模型的自主构建奠定了基础。
查看 arXiv 页面查看 PDF

评论

Zaid KhanZaid Khan
论文提交者

项目主页: onelife-worldmodel.github.io
Crafter-OO: github.com/codezakh/crafter_oo