MaskSearch:一个通用预训练框架以增强智能体搜索能力

发表
weiqi wuweiqi wu 提交
作者: Weiqi Wu, Xin Guan, Shen Huang, Yong Jiang, Pengjun Xie, Fei Huang, Jiuxin Cao, Hai Zhao, Jingren Zhou

摘要

检索增强语言模型(RALM)代表了一种经典范式,其中模型通过专门模块检索外部知识来增强生成能力。代理技术(Agent techniques)的最新进展使得大型语言模型(LLM)能够自主利用工具进行检索、规划和推理。尽管现有的基于训练的方法展现出潜力,但它们的代理能力受限于训练期间使用的特定任务数据的固有特性。为了进一步增强代理的通用搜索能力,我们提出了一种新颖的预训练框架——MaskSearch。在预训练阶段,我们引入了检索增强掩码预测(RAMP)任务,模型在此任务中学习利用搜索工具在大量预训练数据上填充被掩盖的跨度,从而为LLM获得通用的检索和推理能力。之后,模型在下游任务上进行训练以获得进一步的提升。我们将监督微调(SFT)和强化学习(RL)应用于训练。对于SFT,我们结合了基于代理和基于蒸馏的方法来生成训练数据,首先是一个由规划器、重写器、观察者组成的多代理系统,然后是一个自我进化的教师模型。而对于RL,我们采用DAPO作为训练框架,并采纳了一个由答案奖励和格式奖励组成的混合奖励系统。此外,我们引入了一种课程学习方法,允许模型根据掩码跨度的数量,从较容易的实例逐步学习到更具挑战性的实例。我们在开放域多跳问答场景中评估了我们框架的有效性。通过大量实验,我们证明MaskSearch显著提升了基于LLM的搜索代理在域内和域外下游任务上的性能。
查看 arXiv 页面查看 PDF

评论

weiqi wuweiqi wu
论文提交者

大家好!我非常高兴能深入介绍我们在大型语言模型(LLM)的智能体搜索能力领域所取得的进展。

🌟 我们提出了 MaskSearch,一个新颖的预训练框架,旨在进一步增强智能体的通用搜索能力。

📚 我们引入了检索增强掩码预测(Retrieval Augmented Mask Prediction, RAMP)任务,在该任务中,模型学习利用搜索工具来填充大量预训练数据中的掩码片段,从而使大型语言模型获得通用的检索和推理能力。

🚀 我们结合了基于智能体(agent-based)和基于蒸馏(distillation-based)的方法来生成训练数据,首先是一个由规划器(planner)、重写器(rewriter)、观察者(observer)组成的多智能体系统,随后是一个自进化的教师模型。

🎯 大量实验表明,MaskSearch 显著提升了基于大型语言模型的搜索智能体在领域内和领域外下游任务上的性能。