修复损害性能的数据:级联大型语言模型重新标记难负样本以实现鲁棒信息检索

发表
Nandan ThakurNandan Thakur 提交
作者: Nandan ThakurNandan Thakur, Xinyu ZHANGCrystina Zhang, Xueguang Ma, Jimmy Lin

摘要

训练强大的检索和重排序模型通常依赖于大规模检索数据集;例如,BGE数据集包含160万个查询-段落对,这些对来自各种数据源。然而,我们发现某些数据集会对模型效能产生负面影响——从BGE数据集中剔除15个数据集中的8个,可将训练集大小减少2.35倍,并将BEIR上的nDCG@10提高1.0点。这促使我们对训练数据质量进行更深入的审视,尤其关注“假阴性”,即相关段落被错误地标记为不相关。我们提出了一种简单、经济有效的方法,使用级联LLM提示来识别和重新标记困难的负样本。实验结果表明,将假阴性重新标记为真阳性,可使E5(基础)和Qwen2.5-7B检索模型在BEIR上的nDCG@10提高0.7-1.4点,在零样本AIR-Bench评估上的nDCG@10提高1.7-1.8点。对于在重新标记数据上进行微调的重排序模型,例如在BEIR上的Qwen2.5-3B,也观察到了类似的增益。级联设计的可靠性得到了人工标注结果的进一步支持,我们发现GPT-4o的判断与人类的一致性远高于GPT-4o-mini。
查看 arXiv 页面查看 PDF
修复损害性能的数据:级联大型语言模型重新标记难负样本以实现鲁棒信息检索

评论

Tom AarsenTom Aarsen

为信息检索(Information Retrieval)重新标注数据集可以提升嵌入模型(embedding models)和交叉编码重排序模型(cross-encoder rerankers)的NDCG@10指标。这已经是普遍的看法,现在得到了证实。@nthakur、@crystina-z、@MrLight 和 @lintool 干得好!

在这里查看包含数据集和模型的组织页面:https://huggingface.co/rlhn

  • Tom Aarsen
Nandan ThakurNandan Thakur
论文作者
论文提交者

你知道吗?在大型但不够干净的训练数据集上微调(fine-tuning)检索器(retrievers)和重排序器(re-rankers)可能会损害它们的性能?😡

在我们的新预印本(preprint)中,我们通过剪枝数据集(pruning datasets)并识别和重新标注𝐟𝐚𝐥𝐬𝐞-𝐧𝐞𝐠𝐚𝐭𝐢𝐯𝐞𝐬(假阴性)来重新审视流行的信息检索(IR)训练数据的质量!

预印本:https://arxiv.org/abs/2505.16967

🌟𝐏𝐫𝐞𝐥𝐢𝐦𝐢𝐧𝐚𝐫𝐲(初步结果)

我们在来自 BGE 集合的 16 个检索数据集(160 万训练对)上微调 E5 (base) 模型,并进行了留一分析:即留出一个数据集,在其余数据集上进行微调。令人惊讶的是,单独移除 ELI5 数据集就可以在 14 个 BEIR 数据集中的 7 个上提高 nDCG@10!🤯

🚀 𝐃𝐚𝐭𝐚𝐬𝐞𝐭 𝐏𝐫𝐮𝐧𝐢𝐧𝐠(数据集剪枝)

1️⃣ 我们有效地剪枝了 15 个训练数据集中的 8 个,剩下 7 个数据集,将训练对数量减少了 2.35 倍(160 万 -> 68 万对)。

2️⃣ 在 7 个数据集上微调的 E5 (base) 模型在所有 15 个数据集上的表现优于在全部数据集上微调的模型,在 BEIR 数据集上的 nDCG@10 提高了 1.0。

3️⃣ 这表明有些数据集对模型性能有害。

📊 𝐅𝐚𝐥𝐬𝐞 𝐍𝐞𝐠𝐚𝐭𝐢𝐯𝐞𝐬(假阴性)

在剪枝后的训练数据集中,我们发现一个常见问题,即“假阴性”:困难负样本(hard negatives)被错误地归类为不相关!我们提出了一个 LLM 判别级联框架(𝐑𝐋𝐇𝐍)来识别和重新标注训练数据集中的这些假阴性。

我们仔细衡量了对训练对中识别出的假阴性执行的三种操作:

1️⃣ 移除:完全丢弃包含假阴性的训练对。

2️⃣ 移除 HN:仅从困难负样本列表中丢弃假阴性。

3️⃣ 𝐑𝐋𝐇𝐍:将假阴性重新标注为正样本,同时保留其余的困难负样本列表。

📊 𝐄𝐱𝐩𝐞𝐫𝐢𝐦𝐞𝐧𝐭𝐚𝐥 𝐑𝐞𝐬𝐮𝐥𝐭𝐬(实验结果)

𝐑𝐋𝐇𝐍 相较于其他方法,在检索器和重排序器中获得了最佳提升。即使我们只标注一小部分训练对,𝐑𝐋𝐇𝐍 也开始显示出持续的增益,尤其是在 BEIR (平均 7) 和 AIR-Bench (平均 5) 上的 OOD nDCG@10,两者都随着更多干净数据的加入而稳步提高。

我们还定性分析了已识别假阴性的不同类别,例如,查询可能存在歧义,这可能导致许多困难负样本实际上是相关的。

论文:https://arxiv.org/abs/2505.16967

代码:https://github.com/castorini/rlhn

数据:https://huggingface.co/rlhn