CoRAG:协同检索增强生成

04月02日发表
04月14日由 Aashiq MuhamedAashiq Muhamed 提交
作者: Aashiq Muhamed, Mona Diab, Virginia Smith

摘要

检索增强生成 (RAG) 模型在知识密集型任务中表现出色,尤其是在少样本学习约束下。我们引入了 CoRAG,这是一个将 RAG 扩展到协作环境的框架,在协作环境中,客户端使用协作段落存储库联合训练共享模型。为了评估 CoRAG,我们引入了 CRAB,这是一个用于协作同质开放域问答的基准。我们的实验表明,在低资源场景中,CoRAG 始终优于参数化协作学习方法和本地训练的 RAG 模型。进一步的分析揭示了共享存储库中相关段落的关键重要性、包含不相关段落的令人惊讶的好处,以及硬负例可能对性能产生负面影响的潜力。这在协作 RAG 中引入了一个新的考虑因素:利用集体丰富的知识库与纳入来自其他客户端的有害段落的潜在风险之间的权衡。我们的发现强调了 CoRAG 的可行性,同时也突出了关键的设计挑战和有希望的未来研究方向。
查看 arXiv 页面查看 PDF

评论

Aashiq MuhamedAashiq Muhamed
论文提交者

https://github.com/aashiqmuhamed/CoRAG