ReZero:通过再试一次增强LLM搜索能力

发表
Alan DaoAlan Dao 提交
作者: Alan DaoAlan Dao, Thinh Le

摘要

检索增强生成 (RAG) 提高了大型语言模型 (LLM) 在知识密集型任务上的性能,但严重依赖于初始搜索查询质量。当前的方法(通常使用强化学习 (RL))通常侧重于查询制定或结果推理,而没有明确鼓励在搜索失败后坚持不懈。我们介绍了 ReZero (Retry-Zero),这是一个新颖的 RL 框架,它直接奖励在初始尝试不成功后重试搜索查询的行为。这激励了大型语言模型探索替代查询,而不是过早停止。ReZero 展示了显著的改进,与 25% 的基线相比,准确率达到了 46.88%。通过奖励坚持不懈,ReZero 增强了大型语言模型在复杂信息寻求场景中的鲁棒性,在这些场景中,初始查询可能被证明不足。
查看 arXiv 页面查看 PDF

评论

Alan DaoAlan Dao
论文作者
论文提交者

检索增强生成 (RAG) 提高了大型语言模型 (LLM) 在知识密集型任务上的性能,但严重依赖于初始搜索查询质量。当前的方法通常使用强化学习 (RL),通常侧重于查询制定或结果推理,而没有明确鼓励在搜索失败后坚持下去。我们引入了 ReZero (Retry-Zero),这是一种新颖的 RL 框架,它直接奖励在初始不成功的尝试后重试搜索查询的行为。这激励 LLM 探索替代查询,而不是过早停止。ReZero 展示了显着的改进,与 25% 的基线相比,实现了 46.88% 的准确率。通过奖励坚持不懈,ReZero 增强了 LLM 在复杂信息寻求场景中的鲁棒性,在这些场景中,初始查询可能被证明不足。