可证明地从语言反馈中学习

发表
Allen NieAllen Nie 提交
作者: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng

摘要

从观察和语言反馈中进行交互式学习是一个日益受到研究的领域,由大型语言模型(LLM)智能体的兴起所驱动。尽管已经展示了令人印象深刻的实证演示,但到目前为止,这些决策问题仍然缺乏一个原则性的框架。在本文中,我们形式化了“从语言反馈中学习”(LLF)问题,提出足以支持在潜在奖励下进行学习的假设,并引入“迁移规避维度”(transfer eluder dimension)作为衡量LLF问题难度的复杂性度量。我们表明,迁移规避维度抓住了这一直觉,即反馈中的信息改变了LLF问题的学习复杂性。我们展示了从丰富的语言反馈中学习可以比从奖励中学习快指数倍的案例。我们开发了一种名为HELiX的无悔算法,该算法通过顺序交互可证明地解决了LLF问题,其性能保证与问题的迁移规避维度成比例。在多个实证领域中,我们表明HELiX表现良好,即使在重复提示LLM不可靠的情况下也是如此。我们的贡献标志着在设计从通用语言反馈中学习的原则性交互式算法方面迈出了第一步。
查看 arXiv 页面查看 PDF
可证明地从语言反馈中学习
可证明地从语言反馈中学习

评论

Allen NieAllen Nie
论文提交者

大语言模型(LLM)的决策制定可以用强化学习(RL)来研究!一个智能体能否高效地通过文本反馈(操作系统终端、编译器、或人类)来解决任务?我们如何理解其中的难度?我们提出了一个学习复杂度的新概念,以专门研究仅通过语言反馈进行学习。

基于Eluder维度(Russo和Van Roy 🎓,2013),我们提出了迁移Eluder维度,它衡量了语言反馈能如何高效地减少关于奖励的不确定性。更小的dimTE意味着单个语言反馈包含了更多的信息。

基于此概念,我们开发了HELiX 🧬(使用语言引导探索的假设消除),它实现了随时间范围T优雅扩展的遗憾界限,首次建立了无遗憾学习与语言反馈之间的形式化联系。

我们引入了一个元算法,通过思维tokens🤔💭来用大语言模型实现HELiX。大语言模型将并行思考作为对世界🌍的合理假设进行采样。我们通过思想共识进行悲观利用,并通过动作自我评估进行乐观探索。

我们的初步结果表明,通过利用思维tokens,我们的算法可以通过演化一组思想并在评估后进行高效探索,从而帮助大语言模型做出更好的决策。

我们在此建立的思考(推理)与探索(RL)之间的联系,仅仅是LLM通过语言进行学习的冰山一角。