⏶13
Dynaword:从一次性数据集到持续开发的数据集
发表
由
Kenneth C. Enevoldsen 提交

作者:
Kenneth Enevoldsen,
Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Andrea Blasi Núñez,
Gianluca Barmina,
Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup,
Per Møldrup Dalum, Desmond Elliott,
Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo




摘要
大规模数据集是自然语言处理研究和开发的基础。然而,当前的方法面临三个关键挑战:(1) 依赖于授权模糊的来源,限制了使用、共享和衍生作品;(2) 静态的数据集发布方式,阻碍了社区贡献并降低了其长期价值;(3) 质量保证流程仅限于发布团队,未能利用社区的专业知识。为应对这些局限,我们提出了两项贡献:Dynaword 方法和 Danish Dynaword。Dynaword 方法是一个用于创建大规模、开放数据集的框架,该数据集可通过社区协作持续更新。Danish Dynaword 是一个验证该方法并展示其潜力的具体实现。Danish Dynaword 包含的词元数量是同类发布版本的四倍以上,完全采用开放许可,并已获得来自业界和研究领域的多个贡献。该代码库包含轻量级测试,以确保数据格式、质量和文档的规范性,为持续的社区贡献和数据集演进建立了一个可持续的框架。



从一次性开源数据集到持续开发(完全)开源数据集。我们从丹麦语开始,但希望能够制作出可以实际提交 PR 的开源数据集,并使其成为默认设置。