⏶56
SitEmb-v1.5: 改进的上下文感知密集检索,用于语义关联和长篇故事理解
发表
由
Junjie Wu 提交
作者:
Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu,
Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou,
Mo Yu
摘要
对长文档进行检索增强生成(RAG)通常涉及将文本分割成较小的块,这些块作为检索的基本单位。然而,由于原始文档中的依赖关系,上下文信息对于准确解释每个块通常至关重要。为了解决这个问题,以前的工作探索了编码更长的上下文窗口,以生成更长块的嵌入。尽管进行了这些努力,检索和下游任务的收益仍然有限。这是因为 (1) 更长的块由于需要编码的信息量增加而给嵌入模型的容量带来压力,以及 (2) 许多实际应用由于模型或人工带宽的限制仍然需要返回局部证据。
我们提出了一种解决这一挑战的替代方法,即通过以更广泛的上下文窗口为条件来表示短块,以增强检索性能——即将块的含义置于其上下文中。我们进一步表明,现有嵌入模型不善于有效编码此类情境化上下文,因此我们引入了一种新的训练范式并开发了情境化嵌入模型(SitEmb)。为了评估我们的方法,我们策划了一个专门用于评估情境化检索能力的图书情节检索数据集。在此基准测试中,我们基于 BGE-M3 的 SitEmb-v1 模型以仅 10 亿参数,大幅优于最先进的嵌入模型,包括几个拥有高达 7-8 亿参数的模型。我们的 8 亿 SitEmb-v1.5 模型进一步将性能提高了 10% 以上,并在不同语言和多个下游应用中表现出强大的结果。
我们的训练模型可以从以下地址下载:https://huggingface.co/SituatedEmbedding