⏶1
用于离线目标条件强化学习的选项感知时间抽象值
发表
由
Jisu Han 提交
作者: Hongjoon Ahn, Heewoong Choi,
Jisu Han, Taesup Moon
摘要
离线目标条件强化学习 (GCRL) 提供了一种实用的学习范式,其中目标达成策略可以通过丰富的无标签(无奖励)数据集进行训练,而无需额外的环境交互。然而,即使采用了诸如 HIQL 等利用分层策略结构的最新进展,离线 GCRL 在处理长时程任务时仍然存在困难。通过识别这一挑战的根本原因,我们观察到以下几点:首先,性能瓶颈主要源于高层策略无法生成合适的子目标。其次,在长时程设定下学习高层策略时,优势信号的符号经常变得不正确。因此,我们认为改进值函数以产生清晰的优势信号来学习高层策略至关重要。在本文中,我们提出了一种简单而有效的解决方案:选项感知时序抽象值学习,称为 OTA,它将时序抽象融入时序差分学习过程中。通过修改值更新使其具备选项感知能力,所提出的学习方案缩短了有效时程长度,从而能够在长时程设定下实现更好的优势估计。我们通过实验表明,使用 OTA 值函数提取的高层策略在 OGBench(一个最近提出的离线 GCRL 基准测试平台)中的复杂任务上取得了强大性能,包括迷宫导航和视觉机器人操作环境。
面向选项的时序抽象价值,用于离线目标条件强化学习