The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集

发表
Stefan SchweterStefan Schweter 提交
作者: Nikhil Kandpal, Brian Lester, Colin RaffelColin Raffel, Sebastian MajstorovicSebastian Majstorovic, Stella BidermanStella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon AlbalakAlon Albalak, Zhenlin Xu, Guilherme PenedoGuilherme Penedo, Loubna Ben Allal, Elie BakouchElie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler MurrayTyler Murray

摘要

大型语言模型(LLMs)通常在海量未经许可的文本上进行训练,这种做法由于可能涉及知识产权侵权和道德问题而受到审视。在开放许可文本上训练 LLMs 是解决这些问题的第一步,但以往的数据收集工作所产生的数据集过小或质量过低,无法生成高性能的 LLMs。为了弥补这一空白,我们收集、整理并发布了 Common Pile v0.1,这是一个八太字节的开放许可文本集合,专为 LLM 预训练设计。Common Pile 包含来自 30 个来源的内容,涵盖研究论文、代码、书籍、百科全书、教育材料、音频转录等多个领域。至关重要的是,我们通过在 Common Pile 的文本上训练两个 7 亿参数的 LLM 来验证我们的努力:Comma v0.1-1T 和 Comma v0.1-2T,分别在 1 万亿和 2 万亿个 token 上进行训练。这两个模型都达到了与训练在未经许可文本上的类似计算预算的 LLM(如 Llama 1 和 2 7B)相当的性能。除了发布 Common Pile v0.1 本身,我们还发布了其创建所用的代码以及 Comma v0.1 模型的训练混合物和检查点。
查看 arXiv 页面查看 PDF

评论

Stefan SchweterStefan Schweter
论文提交者

Common Pile 是一个八太字节的开放许可文本集合,专为 LLM 预训练设计——包含来自 30 个来源的内容,涵盖研究论文、代码、书籍、百科全书、教育材料、音频转录等不同领域。