⏶234
通过早期经验进行代理学习
发表
由
taesiri 提交

作者:
Kai Zhang,
Xiangchao Chen,
Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu,
Xiyao Wang,
Yuting Ning, Zhaorun Chen,
Xiaohan Fu, Jian Xie, Yuxuan Sun,
Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou,
Jiacheng Zhu, Huan Sun, Jason Weston,
Yu Su, Yifan Wu







摘要
AI 生成总结
早期经验,使用没有奖励信号的代理生成交互数据,可以提高策略的有效性和泛化能力,充当模仿学习和强化学习之间的桥梁。语言智能体的长期目标是通过自身的经验进行学习和改进,最终在复杂的现实世界任务中超越人类。然而,在许多缺乏可验证奖励(例如,网站)或需要效率低下的长时程模拟(例如,多轮工具使用)的环境中,通过强化学习从经验数据中训练智能体仍然很困难。因此,大多数当前的智能体都依赖于专家数据的**监督微调**,这种方法难以扩展且泛化能力差。这种局限性源于专家演示的性质:它们只捕捉了狭窄范围的场景,并且智能体接触到的环境多样性有限。我们通过一种我们称之为**早期经验**的中间范式来解决这一局限性:即智能体自身行动产生**交互式数据**,其中生成的未来状态充当监督信号,而无需奖励信号。在此范式下,我们研究了使用此类数据的两种策略:(1) **隐式世界建模**,它使用收集的状态将策略锚定在环境动态中;(2) **自我反思**,智能体从中学习其不理想的行动以改进推理和决策。我们在八个不同的环境和多个模型系列中进行了评估。我们的方法始终提高了有效性和**领域外泛化能力**,突显了早期经验的价值。此外,在具有可验证奖励的环境中,我们的结果提供了有希望的信号,表明早期经验为后续的强化学习提供了坚实的基础,使其成为模仿学习和完全由经验驱动的智能体之间的实用桥梁。
评论

他们在这篇论文中写了大约 147 次“rollout”(推广),却没有一次想到“等等,我们是不是应该引用 Ludacris?”。相关工作部分有 3 段关于探索的内容,但不知为何却遗漏了该主题的权威之作。
@inproceedings{bridges2001rollout,
author = {Bridges, Christopher Brian and Mosley, Timothy Z.},
title = {Rollout (My Business): A Novel Framework for Iterative
Trajectory Collection in Reward-Sparse Environments},
booktitle = {Proceedings of Word of Mouf},
year = {2001},
publisher = {Def Jam South/Disturbing tha Peace},
track = {2},
note = {确立“双格洛克”双重优化框架的开创性工作。作者通过重复的实证验证(n=16 次 rollout 迭代/副歌)表明,通过豪华车辆导航(“rollin' on twenties with the top back”)进行的轨迹增强可产生优越的状态空间覆盖。关键见解:“so much money you can't stop that”为高维动作空间中的收敛提供了理论证明。带有嵌入式钻石正则化的白金链价值函数可防止稀疏奖励环境中的过拟合。},
abstract = {我们提出了 ROLLOUT,一种可扩展的、用于解决具有高昂样本复杂性的环境探索的方法。我们的方法利用双臂随机老虎机来最大化即时奖励和长期价值估计。}
}
语言代理的长期目标是通过自身的经验学习和改进,最终在复杂、现实世界的任务中超越人类。然而,在许多环境中,使用强化学习从经验数据进行训练仍然很困难,这些环境要么缺乏可验证的奖励(例如,网站),要么需要效率低下的长时序采样(例如,多轮工具使用)。因此,大多数当前代理依赖于专家数据的监督微调,这种方法难以扩展且泛化性差。这种局限性源于专家演示的性质:它们只捕捉了狭窄的场景范围,并使代理接触到有限的环境多样性。我们通过一种我们称之为早期经验的中间范式来解决这一局限性:由代理自身行动生成的交互数据,其中结果的未来状态作为监督信号,而没有奖励信号。在此范式内,我们研究了两种使用此类数据的方法:(1)隐式世界建模,它使用收集的状态来锚定策略与环境动力学;(2)自我反思,代理从中吸取教训,改进推理和决策。我们在八个多样化的环境和多个模型系列中进行了评估。我们的方法持续提高了有效性和跨领域泛化能力,凸显了早期经验的价值。此外,在具有可验证奖励的环境中,我们的结果提供了有希望的信号,表明早期经验为后续的强化学习提供了坚实的基础,使其成为模仿学习和完全由经验驱动的代理之间的实用桥梁。