⏶39

Essential-Web v1.0：24万亿token的组织化网络数据

06月17日发表

06月17日由 Research at Essential AI 提交

作者: Essential AI, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani

摘要

数据在语言模型获取技能和知识方面扮演着最重要的角色。缺乏大规模、组织良好的预训练数据集导致数据管道成本高昂且难以访问。我们推出了 Essential-Web v1.0，一个包含 24 万亿个 token 的数据集，其中每份文档都用一个涵盖主题、格式、内容复杂度和质量的十二类别分类法进行了标注。分类标签由 EAI-Distill-0.5b 生成，这是一个经过微调的 0.5 亿参数模型，其标注者一致性与 Qwen2.5-32B-Instruct 相比仅差 3%。仅使用 SQL 风格的过滤器，我们就能在数学（相对于 SOTA 降低 8.0%）、网络代码（增加 14.3%）、STEM（增加 24.5%）和医疗（增加 8.6%）领域获得有竞争力、从网络筛选而来的数据集。Essential-Web v1.0 可在 HuggingFace 上获取：https://huggingface.co/datasets/EssentialAI/essential-web-v1.0

查看 arXiv 页面查看 PDF

Research at Essential AI

论文提交者

ESSENTIAL-WEB V1.0：24T token 的组织化网络数据

Elie Bakouch

太棒了！！🔥

Anthony Polloreno

干得好！

Victorious Boner

太棒了！

Josiah Clark

太棒了！！！！！

Essential-Web v1.0：24万亿token的组织化网络数据

摘要

评论