zELO:受 ELO 启发的重排器和嵌入模型训练方法

发表
Thomas WolfThomas Wolf 提交
作者: Nicholas Pipitone, Ghita Houir Alami, Advaith Avadhanam, Anton Kaminskyi, Ashley Khoo

摘要

AI 生成总结
一种名为 zELO 的新型训练方法,通过将排序任务视为等同于 Thurstone 模型来优化检索性能,从而产生了最先进的开源重排模型,这些模型在各种领域中优于专有模型。
我们提出了一种名为 zELO 的新颖训练方法,该方法通过将排序任务分析为静态等效于 Thurstone 模型来优化检索性能。基于 zELO 方法,我们使用无监督数据来训练一套最先进的开放权重重排器模型:zerank-1 和 zerank-1-small。这些模型在多个领域(包括金融、法律、代码和 STEM)取得了最高的检索分数,在 NDCG@10 和 Recall 上均优于闭源专有重排器。这些模型还展现出极大的通用性,在零样本性能方面,它们在非目标领域和私有客户数据集上也能保持原有性能。训练数据包括 112,000 个查询和每个查询 100 个文档,并且在不到 10,000 H100 小时内从无标注的查询和文档中进行了端到端训练。
查看 arXiv 页面查看 PDF

评论

Thomas WolfThomas Wolf
论文提交者

作者的演示:

在国际象棋中,Elo 分数可以预测谁会赢得比赛。@ZeroEntropy 将同样的技巧应用于检索:

让文档进行两两“对决”,将结果转化为 Elo 分数,然后训练一个紧凑的点式重排序模型。

我们在新论文中包含了所有内容:权重、数学、RL 循环、消融实验、死胡同。

现已在 arXiv 上线,这里有一个抢先预览:

✅ 有效的方法:
• 最终的重排序模型在准确性和延迟方面优于更大、闭源的模型。
• 两两对决 → Elo → 点式比原始二元标签具有更好的校准。
• 周期采样将 O(n²) 的两两推理成本降低到 O(n),且没有质量损失。

❌ 无效的方法:
• 人工标注:过于稀疏,过于嘈杂。LLM 的两两对决方法规模更大。
• 原始 Elo 分数:需要跨查询进行校准;否则分数会漂移。
• 列表式 LLM 重排序:速度较慢,一致性较差,而且不值得花费成本。