⏶13

Dynaword：从一次性数据集到持续开发的数据集

08月04日发表

08月05日由 Kenneth C. Enevoldsen 提交

作者: Kenneth Enevoldsen, Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Andrea Blasi Núñez, Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per Dalum-Møldrup Per Møldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo

摘要

大规模数据集是自然语言处理研究和开发的基础。然而，当前的方法面临三个关键挑战：(1) 依赖于授权模糊的来源，限制了使用、共享和衍生作品；(2) 静态的数据集发布方式，阻碍了社区贡献并降低了其长期价值；(3) 质量保证流程仅限于发布团队，未能利用社区的专业知识。为应对这些局限，我们提出了两项贡献：Dynaword 方法和 Danish Dynaword。Dynaword 方法是一个用于创建大规模、开放数据集的框架，该数据集可通过社区协作持续更新。Danish Dynaword 是一个验证该方法并展示其潜力的具体实现。Danish Dynaword 包含的词元数量是同类发布版本的四倍以上，完全采用开放许可，并已获得来自业界和研究领域的多个贡献。该代码库包含轻量级测试，以确保数据格式、质量和文档的规范性，为持续的社区贡献和数据集演进建立了一个可持续的框架。

查看 arXiv 页面查看 PDF

Kenneth C. Enevoldsen

论文作者

论文提交者

从一次性开源数据集到持续开发（完全）开源数据集。我们从丹麦语开始，但希望能够制作出可以实际提交 PR 的开源数据集，并使其成为默认设置。

Dynaword：从一次性数据集到持续开发的数据集

摘要

评论