⏶14
基于嵌入的检索的理论局限性
发表
由
Orion Weller 提交

作者:
Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee

摘要
多年来,向量嵌入的任务不断增加,并逐渐用于推理、指令遵循、编码等方面。这些新的基准测试要求嵌入能够处理任何查询以及任何相关的概念。虽然以往的研究已经指出了向量嵌入的理论局限性,但普遍的观点认为这些困难仅归因于不切实际的查询,并且通过更好的训练数据和更大的模型可以克服这些问题。在这项工作中,我们证明了即使在非常简单的查询的实际场景中,我们也可能遇到这些理论上的局限性。我们将学习理论中的已知结果联系起来,表明能够作为某些查询结果返回的文档的 top-k 子集数量受到嵌入维度的限制。我们通过实验证明,即使我们将 k 限制为 2,并且在测试集上直接使用自由参数化嵌入进行优化,这一点也依然成立。然后,我们创建了一个名为 LIMIT 的真实数据集,该数据集基于这些理论结果对模型进行压力测试,并观察到即使是最先进的模型也未能在此数据集上取得成功,尽管任务性质很简单。我们的工作展示了现有单一向量范式下嵌入模型的局限性,并呼吁未来的研究开发能够解决这一根本性局限性的方法。
https://github.com/google-deepmind/limit