⏶39
Essential-Web v1.0:24万亿token的组织化网络数据
发表
由
Research at Essential AI 提交
作者: Essential AI, Andrew Hojel,
Michael Pust,
Tim Romanski, Yash Vanjani,
Ritvik Kapila,
Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas,
Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos,
Khoi Nguyen, Kurt Smith,
Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava,
Somanshu Singla, Ashish Vaswani


摘要
数据在语言模型获取技能和知识方面扮演着最重要的角色。缺乏大规模、组织良好的预训练数据集导致数据管道成本高昂且难以访问。我们推出了 Essential-Web v1.0,一个包含 24 万亿个 token 的数据集,其中每份文档都用一个涵盖主题、格式、内容复杂度和质量的十二类别分类法进行了标注。分类标签由 EAI-Distill-0.5b 生成,这是一个经过微调的 0.5 亿参数模型,其标注者一致性与 Qwen2.5-32B-Instruct 相比仅差 3%。仅使用 SQL 风格的过滤器,我们就能在数学(相对于 SOTA 降低 8.0%)、网络代码(增加 14.3%)、STEM(增加 24.5%)和医疗(增加 8.6%)领域获得有竞争力、从网络筛选而来的数据集。Essential-Web v1.0 可在 HuggingFace 上获取:https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
ESSENTIAL-WEB V1.0:24T token 的组织化网络数据