⏶1
如果可能,请使用在线网络:迈向快速稳定的强化学习
发表
由
Ahmed Hendawy 提交

作者:
Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo

摘要
AI 生成总结
MINTO,一种使用目标网络和在线网络之间最小估计值的新颖更新规则,在深度强化学习中增强了稳定且更快的价值函数学习。在深度强化学习(RL)中,使用目标网络是估计值函数的一种流行方法。虽然有效,但目标网络仍然是一种折衷方案,它以缓慢移动的目标为代价来保持稳定性,从而延缓了学习。相反,使用在线网络作为引导目标在直观上很吸引人,尽管众所周知会导致学习不稳定。在这项工作中,我们的目标是通过引入一种新颖的更新规则,该规则通过计算目标网络和在线网络之间的最小估计值来计算目标,从而获得两全其美。这催生了我们的方法 MINTO。通过这种简单而有效的修改,我们证明了 MINTO 可以通过减轻使用在线网络进行引导的潜在过高估计偏差,从而实现更快、更稳定的值函数学习。值得注意的是,MINTO 可以无缝集成到各种基于值和 Actor-Critic 算法中,成本可忽略不计。我们广泛评估了 MINTO 在各种基准测试中的表现,涵盖了在线和离线 RL,以及离散和连续动作空间。在所有基准测试中,MINTO 的性能均得到持续提升,证明了其广泛的适用性和有效性。
MINTO 是一种简单而有效的针对离策略强化学习(RL)的目标引导方法,能够实现更快、更稳定的学习,并持续提升各种算法和基准测试的性能。