数据表还不够:DataRubrics:用于自动化质量指标和问责制

发表
Genta Indra WinataGenta Indra Winata 提交
作者: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus IrawanPatrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone KimSeungone Kim, Hanyang Zhao, Sudipta KarSudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury

摘要

高质量数据集是机器学习模型训练和评估的基础,然而,它们的创建——尤其是在准确的人工标注下——仍然是一个重大挑战。许多数据集论文提交缺乏原创性、多样性或严格的质量控制,而这些缺点在同行评审中经常被忽视。提交的论文也经常省略有关数据集构建和属性的重要细节。尽管现有工具(如数据表)旨在促进透明度,但它们主要以描述为主,并未提供标准化、可衡量的数据质量评估方法。同样,会议的元数据要求促进问责制,但执行不一致。为了解决这些局限性,本立场文件倡导将系统化的、基于评分标准的评估指标整合到数据集评审过程中——尤其是在提交量持续增长的情况下。我们还探讨了可扩展、成本效益高的合成数据生成方法,包括专用工具和“LLM即法官”方法,以支持更高效的评估。作为一项行动呼吁,我们引入了DataRubrics,一个用于评估人工生成和模型生成数据集质量的结构化框架。利用LLM评估的最新进展,DataRubrics为数据集质量评估提供了一个可复现、可扩展且可操作的解决方案,使作者和评审人员都能在以数据为中心的研究中坚持更高的标准。我们还发布了代码以支持LLM评估的可复现性,地址为 https://github.com/datarubrics/datarubrics
查看 arXiv 页面查看 PDF

评论

Genta Indra WinataGenta Indra Winata
论文提交者

数据表还不够:自动化质量指标和责任的数据规程