⏶6

德国语料库 - 1540 亿个开放许可的德语文本用于德语语言模型

10月15日发表

10月17日由 Stefan Schweter 提交

作者: Lukas Gienapp, Christopher Schröder, Stefan Schweter, Christopher Akiki, Ferdinand Schlatt, Arden Zimmermann, Phillipe Genêt, Martin Potthast

摘要

AI 生成总结

German Commons 提供了一个大规模、开放许可的数据集，用于训练德语语言模型，解决了此类数据的稀缺性问题。

大型语言模型开发依赖于大规模训练语料库，但大多数语料库包含许可状态不明的数据，这限制了真正开放模型的开发。对于非英语语言，这个问题更加严重，因为开放许可的文本仍然非常稀缺。我们推出了 German Commons，迄今为止最大的开放许可德语文本集合。它汇集了来自七个领域的 41 个来源的数据，包括法律、科学、文化、政治、新闻、经济和网络文本。通过从具有可验证许可的成熟数据提供者处系统地采购，它产生了 1545.6 亿个 token 的高质量文本，用于语言模型训练。我们的处理流水线实施了全面的质量过滤、去重和文本格式修复，确保了异构文本来源之间的一致质量。所有领域子集都具有至少 CC-BY-SA 4.0 或同等许可，确保模型训练和再分发的法律合规性。因此，German Commons 解决了开放许可德语预训练数据的关键差距，并促成了真正开放的德语语言模型的开发。我们还发布了用于语料库构建和针对德语文本进行优化的数据过滤的代码，使 German Commons 完全可复现且可扩展。

查看 arXiv 页面查看 PDF

Stefan Schweter

论文作者

论文提交者

German Commons 提供了一个大规模、开放许可的数据集，用于训练德语语言模型，解决了此类数据稀缺的问题。

德国语料库 - 1540 亿个开放许可的德语文本用于德语语言模型

摘要

评论