⏶25
在企业系统中用于领域特定检索的难例挖掘
发表
由
Amit Agarwal 提交
作者: Hansa Meghwani,
Amit Agarwal, Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Srikant Panda
摘要
企业搜索系统通常难以检索到准确的、领域特定的信息,这是因为语义不匹配和术语重叠。这些问题会降低下游应用的性能,例如知识管理、客户支持和检索增强生成代理。为了解决这一挑战,我们提出了一种可扩展的硬负样本挖掘框架,该框架专门针对领域特定的企业数据进行定制。我们的方法动态选择在语义上具有挑战性但在上下文中不相关的文档,以增强已部署的重排模型。我们的方法集成了多种嵌入模型,执行降维,并独特地选择硬负样本,确保了计算效率和语义精度。在我们专有的企业语料库(云服务领域)上的评估表明,与最先进的基线和其他负采样技术相比,MRR@3提高了15\%,MRR@10提高了19\%,取得了显著的改进。在公共领域特定数据集(FiQA、Climate Fever、TechQA)上的进一步验证证实了我们方法的泛化能力和实际应用就绪性。
该论文增强了 RAG 系统的重排序模型和信息检索系统语义搜索的嵌入模型,由 Oracle 开发,用于企业级和领域特定的用例