⏶8
机构图书 1.0:一个来自哈佛大学图书馆馆藏的 2420 亿 token 数据集,为提高准确性和可用性而优化
发表
由
Stefan Schweter 提交

作者:
Matteo Cargnelutti, Catherine Brobston, John Hess, Jack Cushman, Kristi Mukk, Aristana Scourtas, Kyle Courtney, Greg Leppert, Amanda Watson, Martha Whitehead, Jonathan Zittrain

摘要
大型语言模型(LLMs)利用数据了解世界,从而生成有意义的关联和预测。因此,用于训练这些模型或在推理时支持其工作的数据集的性质、规模、质量和多样性,直接影响它们的质量。不同质量的LLM的快速发展和应用,凸显了高质量公共训练数据的稀缺性,并揭示了将这些数据集的管理建立在具有清晰溯源链的可持续实践之上的紧迫需求。为此,本技术报告介绍了《机构图书1.0》(Institutional Books 1.0),这是一个大型的公共领域书籍集合,这些书籍最初是哈佛大学图书馆自2006年参与Google图书项目时进行数字化的。我们与哈佛大学图书馆合作,将这些卷册提取、分析和处理成一个详尽记录的历史文献数据集。这项分析涵盖了作为该项目一部分扫描的哈佛大学图书馆的全部藏书,最初包括1,075,899卷,使用超过250种不同语言撰写,总计约2500亿个token。作为此次初步发布的一部分,已将识别为公共领域的983,004卷(或2420亿个token)的OCR提取文本(原始和后处理)以及元数据(书目、来源和生成)公开发布。本报告描述了该项目的目标和方法,以及我们进行的分析结果,所有这些都是为了使这个历史馆藏更容易被人类和机器过滤、阅读和使用。
> 为此,本技术报告介绍了《机构藏书1.0》(Institutional Books 1.0),这是一个大型的公共领域藏书集合,最初由哈佛大学图书馆自2006年起参与谷歌图书项目进行数字化。
多么棒的项目!我希望其他图书馆也能效仿!