⏶40
ReST 遇上 ReAct:多步推理LLM智能体的自我改进
12月15日发表
04月12日由
AK 提交

作者:
Renat Aksitov, Sobhan Miryoosefi,
Zonglin Li, Daliang Li, Sheila Babayan,
Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar

摘要
回答复杂的自然语言问题通常需要多步骤推理和整合外部信息。一些系统已将知识检索与大型语言模型(LLM)相结合,以回答此类问题。然而,这些系统存在各种失败案例,我们无法直接对它们进行端到端训练来解决这些失败,因为与外部知识的交互是不可微分的。为了解决这些缺陷,我们定义了一个 ReAct 风格的 LLM 代理,该代理具有推理和利用外部知识的能力。我们进一步通过类似 ReST 的方法来改进代理,该方法迭代地训练先前的轨迹,采用增长批次强化学习和 AI 反馈,以实现持续的自我改进和自我蒸馏。从一个提示的大型模型开始,经过算法的两次迭代后,我们可以生成一个微调的小型模型,该模型在具有挑战性的组合式问答基准测试中取得了可比的性能,而参数量却减少了两个数量级。