探索所需尽在掌握

发表
Micah RentschlerMicah Rentschler 提交
作者: Micah Rentschler, Jesse Roberts

摘要

在训练元强化学习 (meta-RL) 智能体以解决新颖环境时,确保充分探索是一个核心挑战。解决探索-利用困境的传统方案会注入明确的激励,例如随机化、不确定性奖励或内在奖励,以鼓励探索。在这项工作中,我们假设一个仅仅为了最大化贪婪(仅利用)目标而训练的智能体仍然可以表现出涌现的探索行为,前提是满足三个条件:(1) 重复的环境结构,即环境具有可重复的规律性,允许过去的经验为未来的选择提供信息;(2) 智能体记忆,使智能体能够保留和利用历史交互数据;以及 (3) 长视野信用分配,即学习在足够长的时间范围内传播回报,以便探索的延迟收益能够为当前决策提供信息。通过在随机多臂老虎机和时序扩展网格世界中的实验,我们观察到,当结构和记忆都存在时,一个严格基于贪婪目标训练的策略会表现出寻求信息的探索行为。我们通过受控消融实验进一步证明,如果环境结构或智能体记忆缺失(条件 1 和 2),涌现的探索就会消失。令人惊讶的是,移除长视野信用分配(条件 3)并不总是能阻止涌现的探索——我们将这一结果归因于伪汤普森抽样效应。这些发现表明,在适当的先决条件下,探索和利用不必被视为正交目标,而可以从统一的奖励最大化过程中涌现出来。
查看 arXiv 页面查看 PDF

评论

Micah RentschlerMicah Rentschler
论文提交者

在这里,我们深入探讨了什么使得探索能够自发地从探索中涌现出来。你同意吗?为什么探索会涌现?研究人员是否应该继续尝试“强制”探索?