通过早期经验进行代理学习

发表
taesiritaesiri 提交
作者: Kai ZhangKai Zhang, Xiangchao ChenXiangchao Chen, Bo LiuBo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao WangXiyao Wang, Yuting NingYuting Ning, Zhaorun Chen, Xiaohan FuXiaohan Fu, Jian Xie, Yuxuan Sun, Boyu GouBoyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng ZhuJiacheng Zhu, Huan Sun, Jason Weston, Yu SuYu Su, Yifan Wu

摘要

AI 生成总结
早期经验,使用没有奖励信号的代理生成交互数据,可以提高策略的有效性和泛化能力,充当模仿学习和强化学习之间的桥梁。
语言智能体的长期目标是通过自身的经验进行学习和改进,最终在复杂的现实世界任务中超越人类。然而,在许多缺乏可验证奖励(例如,网站)或需要效率低下的长时程模拟(例如,多轮工具使用)的环境中,通过强化学习从经验数据中训练智能体仍然很困难。因此,大多数当前的智能体都依赖于专家数据的**监督微调**,这种方法难以扩展且泛化能力差。这种局限性源于专家演示的性质:它们只捕捉了狭窄范围的场景,并且智能体接触到的环境多样性有限。我们通过一种我们称之为**早期经验**的中间范式来解决这一局限性:即智能体自身行动产生**交互式数据**,其中生成的未来状态充当监督信号,而无需奖励信号。在此范式下,我们研究了使用此类数据的两种策略:(1) **隐式世界建模**,它使用收集的状态将策略锚定在环境动态中;(2) **自我反思**,智能体从中学习其不理想的行动以改进推理和决策。我们在八个不同的环境和多个模型系列中进行了评估。我们的方法始终提高了有效性和**领域外泛化能力**,突显了早期经验的价值。此外,在具有可验证奖励的环境中,我们的结果提供了有希望的信号,表明早期经验为后续的强化学习提供了坚实的基础,使其成为模仿学习和完全由经验驱动的智能体之间的实用桥梁。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

语言代理的长期目标是通过自身的经验学习和改进,最终在复杂、现实世界的任务中超越人类。然而,在许多环境中,使用强化学习从经验数据进行训练仍然很困难,这些环境要么缺乏可验证的奖励(例如,网站),要么需要效率低下的长时序采样(例如,多轮工具使用)。因此,大多数当前代理依赖于专家数据的监督微调,这种方法难以扩展且泛化性差。这种局限性源于专家演示的性质:它们只捕捉了狭窄的场景范围,并使代理接触到有限的环境多样性。我们通过一种我们称之为早期经验的中间范式来解决这一局限性:由代理自身行动生成的交互数据,其中结果的未来状态作为监督信号,而没有奖励信号。在此范式内,我们研究了两种使用此类数据的方法:(1)隐式世界建模,它使用收集的状态来锚定策略与环境动力学;(2)自我反思,代理从中吸取教训,改进推理和决策。我们在八个多样化的环境和多个模型系列中进行了评估。我们的方法持续提高了有效性和跨领域泛化能力,凸显了早期经验的价值。此外,在具有可验证奖励的环境中,我们的结果提供了有希望的信号,表明早期经验为后续的强化学习提供了坚实的基础,使其成为模仿学习和完全由经验驱动的代理之间的实用桥梁。

qutuoqutuo

基于模型的强化学习?

Peter SzemrajPeter Szemraj

他们在这篇论文中写了大约 147 次“rollout”(推广),却没有一次想到“等等,我们是不是应该引用 Ludacris?”。相关工作部分有 3 段关于探索的内容,但不知为何却遗漏了该主题的权威之作

@inproceedings{bridges2001rollout,
  author       = {Bridges, Christopher Brian and Mosley, Timothy Z.},
  title        = {Rollout (My Business): A Novel Framework for Iterative 
                  Trajectory Collection in Reward-Sparse Environments},
  booktitle    = {Proceedings of Word of Mouf},
  year         = {2001},
  publisher    = {Def Jam South/Disturbing tha Peace},
  track        = {2},
  note         = {确立“双格洛克”双重优化框架的开创性工作。作者通过重复的实证验证(n=16 次 rollout 迭代/副歌)表明,通过豪华车辆导航(“rollin' on twenties with the top back”)进行的轨迹增强可产生优越的状态空间覆盖。关键见解:“so much money you can't stop that”为高维动作空间中的收敛提供了理论证明。带有嵌入式钻石正则化的白金链价值函数可防止稀疏奖励环境中的过拟合。},
  abstract     = {我们提出了 ROLLOUT,一种可扩展的、用于解决具有高昂样本复杂性的环境探索的方法。我们的方法利用双臂随机老虎机来最大化即时奖励和长期价值估计。}
}
Kai ZhangKai Zhang
论文作者

你好,谢谢你的建议。我一直在网上搜索这部作品(按标题、作者和书名),但无论我多么努力,都似乎找不到它。我非常想阅读这篇论文,你能否提供一个提示或链接?

Kai ZhangKai Zhang
论文作者

看起来像是一首歌而不是一篇论文,哈哈。正在听!

Peter SzemrajPeter Szemraj

抱歉,如果不够清楚,这只是一个玩笑/讽刺 :)

Peter SzemrajPeter Szemraj

既然音乐清楚地表明 N=16 次 rollout,我想我们可以这样写:

> 我们感谢 Ludacris 在 rollout 范式方面的开创性见解,他证明了从环境分布中进行迭代采样既有效又具有风格上的吸引力。他“when sufficient rollout budget is allocated proved prescient for modern agent training”的观察对现代代理训练来说是具有前瞻性的。我们也感谢 Timbaland 为基础的 rollout 框架提供了制作支持。