Infini-gram mini:使用FM-索引在互联网规模下进行精确的n-gram搜索

发表
Jiacheng LiuJiacheng Liu 提交
作者: Hao XuHao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi

摘要

语言模型主要在互联网上的海量文本数据上进行训练,因此理解这种数据源变得越来越重要。精确匹配搜索引擎能够在大规模文本语料库中进行搜索——统计字符串出现次数并检索其包含文档——然而,高存储开销阻碍了它们在互联网规模数据上的应用。我们提出了 Infini-gram mini,一个高效且可扩展的系统,能够使 PB 级文本语料库可搜索。基于同时索引和压缩文本的 FM-index 数据结构(Ferragina 和 Manzini,2000),我们的系统创建的索引大小仅为语料库的 44%。Infini-gram mini 在索引速度(18 倍)以及索引(减少 3.2 倍)和查询(降至可忽略不计的程度)过程中的内存使用方面,均大大优于 FM-index 现有的最佳实现。我们使用单个 128 核 CPU 节点在 50 天内索引了 46TB 的互联网文本(如果使用 75 个此类节点则为 19 小时)。我们展示了 Infini-gram mini 在基准污染大规模分析中的一个重要用例。我们发现几个核心语言模型评估基准在互联网爬取中受到严重污染(在 SQuAD 中高达 40%),如果在这些数据上训练,可能导致高估语言模型的能力。我们托管了一个基准污染公告,分享了许多核心和社区贡献基准的污染率。我们还发布了一个 Web 界面和 API 端点,用于在 Infini-gram mini 索引上提供通用搜索查询服务。
查看 arXiv 页面查看 PDF

评论

Jiacheng LiuJiacheng Liu
论文提交者

infi-gram 的“迷你”版本。

高度压缩的索引,存储需求减少 12 倍,针对大规模索引和高效服务进行了优化。可通过 Web 界面和 API 免费使用。已帮助揭示大规模评估污染。

Web 界面:

API 端点:

源代码: