COIG-P:一个用于与人类价值观对齐的高质量和大规模中文偏好数据集

04月07日发表
04月09日由 SiweiWuSiweiWu 提交
作者: M-A-P Team, SiweiWuSiwei Wu, JinCheng RenJincheng Ren, duXinrun Du, Shuyue Guo, Xingwei Qu, yimingliangYiming Liang, Jie Liu, Yunwen Li, TY.ZhengTianyu Zheng, boyuFengBoyu Feng, Huaqing YuanHuaqing Yuan, Zili WangZenith Wang, Jiaheng LiuJiaheng Liu, Wenhao HuangWenhao Huang, caichenglinChenglin Cai, Haoran QueHaoran Que, Jian Yang, Yuelin Bai, Zekun Moore WangZekun Moore Wang, Zhouliang YuZhouliang Yu, Qunshu Lin, DingPanDing Pan, Jiang YuchenYuchen Jiang, Tiannan WangTiannan Wang, ZhouWangchunshu Zhou, Shenzhi WangShenzhi Wang, Xingyuan BuXingyuan Bu, minghaoMinghao Liu, Guoyin WangGuoyin Wang, Ge ZhangGe Zhang, Chenghua LinChenghua Lin

摘要

使大型语言模型 (LLM) 与人类偏好对齐已取得显著成功。然而,现有的中文偏好数据集受到规模小、领域覆盖范围窄以及缺乏严格数据验证的限制。此外,对人工注释员进行指令和响应标记的依赖严重限制了人类偏好数据集的可扩展性。为了应对这些挑战,我们设计了一条基于 LLM 的中文偏好数据集注释管道,无需人工干预。具体而言,我们抓取并仔细筛选了 9.2 万个高质量中文查询,并使用 15 个主流 LLM 生成并评分了选择-拒绝响应对。在此基础上,我们推出了 COIG-P(中文开放指令通用偏好数据集),这是一个高质量、大规模的中文偏好数据集,包含 100.9 万个中文偏好对,涵盖 6 个不同的领域:聊天、代码、数学、逻辑、小说和角色扮演。在 COIG-P 的基础上,为了减少使用 LLM 进行评分的开销,我们训练了一个 80 亿参数的中文奖励模型 (CRM),并精心构建了一个中文奖励基准 (CRBench)。基于 AlignBench liu2024alignbenchbenchmarkingchinesealignment 的评估结果表明,COIG-P 显着优于其他中文偏好数据集,并且分别为 Qwen2/2.5 和 Infinity-Instruct-3M-0625 模型系列带来了 2% 到 12% 的显着性能提升。CRBench 的结果表明,我们的 CRM 具有强大而稳健的评分能力。我们将其应用于过滤 COIG-P 测试拆分中的选择-拒绝响应对,我们的实验表明,它在识别低质量样本方面与 GPT-4o 相当,同时保持了效率和成本效益。我们的代码和数据已在 https://github.com/multimodal-art-projection/COIG-P 上发布。
查看 arXiv 页面查看 PDF

评论

SiweiWuSiweiWu
论文作者
论文提交者

COIG-P,一个高质量、大规模的中文偏好数据集,包含 1,006k 个中文偏好对,涵盖 6 个不同的领域:聊天、代码、数学、逻辑、小说和角色。

项目页面:https://github.com/multimodal-art-projection/COIG-P