⏶3
Search-R3:统一大型语言模型中的推理和嵌入生成
发表
由
Yuntao 提交
作者:
Yuntao Gui, James Cheng
摘要
AI 生成总结
Search-R3 是一个框架,通过思维链推理、监督学习和强化学习,使 LLM 能够生成有效的搜索嵌入。尽管大型语言模型(LLMs)具有卓越的自然语言理解能力,但它们在检索任务中的应用却未得到充分利用。我们提出了 Search-R3,一个新颖的框架,通过将 LLMs 调整为直接生成搜索嵌入作为其推理过程的输出,解决了这一限制。我们的方法利用了 LLMs 的思维链能力,使它们能够通过分步的复杂语义分析进行推理,从而生成更有效的嵌入。我们通过三个互补的机制来实现这一点。(1)监督学习阶段,使模型能够生成高质量的嵌入;(2)强化学习(RL)方法,在进行推理的同时优化嵌入生成;(3)一个专门的 RL 环境,能够有效地处理不断变化的嵌入表示,而无需在每次训练迭代中完全重新编码语料库。我们在各种基准上的广泛评估表明,Search-R3 通过统一推理和嵌入生成过程,显著优于先前的方法。这种集成式的训练后方法代表了处理需要复杂推理和有效信息检索的复杂知识密集型任务的重大进步。项目页面:https://github.com/ytgui/Search-R3

欢迎来到 Search-R3,我们通过教会 LLM 在思考后进行嵌入,从而显著提升其在搜索任务中的能力的酷炫方法。