密集检索器在简单查询上可能失效:揭示嵌入的粒度困境

发表
Leon XuLeon Xu 提交
作者: Leon XuLiyan Xu, Zhenlin Su, Mo Yu, Jiangnan Li, Fandong Meng, Jie Zhou

摘要

这项工作关注文本编码器的一个观察到的局限性:嵌入可能无法识别语义中细粒度的实体或事件,导致即使在简单情况下也无法进行密集检索。为了检查此类行为,我们首先引入了一个新的中文评估数据集,名为CapRetrieval,其段落为图像标题,查询是询问各种形式的实体或事件的短语。零样本评估表明,无论训练来源或模型大小,编码器都可能无法进行这些细粒度匹配。为了增强性能,我们接着使用我们提出的数据生成策略对编码器进行微调,这在CapRetrieval上获得了最佳性能。在此过程中,我们进一步发现了一个粒度困境问题,即嵌入在表达细粒度显著性的同时与整体语义对齐的挑战。这项工作中的数据集、代码和模型已在https://github.com/lxucs/CapRetrieval公开发布。
查看 arXiv 页面查看 PDF

评论

Leon XuLeon Xu
论文作者
论文提交者

文本编码器可能无法识别语义中的细粒度实体或事件,导致即使在简单的情况下也出现稠密检索失败。为了检查此类行为,我们引入了一个新的中文评估数据集,名为 CapRetrieval。