Essential-Web v1.0:24万亿token的组织化网络数据

发表
Research at Essential AIResearch at Essential AI 提交
作者: Essential AI, Andrew Hojel, Michael PustMichael Pust, Tim RomanskiTim Romanski, Yash Vanjani, Ritvik KapilaRitvik Kapila, Mohit ParmarMohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish TanwerAshish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi NguyenKhoi Nguyen, Kurt Smith, Michael CallahanMichael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu SinglaSomanshu Singla, Ashish Vaswani

摘要

数据在语言模型获取技能和知识方面扮演着最重要的角色。缺乏大规模、组织良好的预训练数据集导致数据管道成本高昂且难以访问。我们推出了 Essential-Web v1.0,一个包含 24 万亿个 token 的数据集,其中每份文档都用一个涵盖主题、格式、内容复杂度和质量的十二类别分类法进行了标注。分类标签由 EAI-Distill-0.5b 生成,这是一个经过微调的 0.5 亿参数模型,其标注者一致性与 Qwen2.5-32B-Instruct 相比仅差 3%。仅使用 SQL 风格的过滤器,我们就能在数学(相对于 SOTA 降低 8.0%)、网络代码(增加 14.3%)、STEM(增加 24.5%)和医疗(增加 8.6%)领域获得有竞争力、从网络筛选而来的数据集。Essential-Web v1.0 可在 HuggingFace 上获取:https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
查看 arXiv 页面查看 PDF

评论

Research at Essential AIResearch at Essential AI
论文提交者

ESSENTIAL-WEB V1.0:24T token 的组织化网络数据

Elie BakouchElie Bakouch

太棒了!!🔥

Anthony PollorenoAnthony Polloreno

干得好!

Victorious BonerVictorious Boner

太棒了!

Josiah ClarkJosiah Clark

太棒了!!!!!