Infinity Instruct:规模化指令选择与合成以增强语言模型

发表
Guang LiuGuang Liu 提交
作者: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, ldwangLiangdong Wang, Boyan Gao, Guang LiuGuang Liu, Yonghua Lin

摘要

大型语言模型(LLMs)在实际应用中展现出强大的性能,然而,现有的开源指令数据集通常集中于狭窄领域,如数学或编码,这限制了泛化能力,并扩大了与专有模型之间的差距。为了弥合这一差距,我们引入了 Infinity-Instruct,一个高质量的指令数据集,旨在通过两阶段管道增强 LLM 的基础能力和聊天能力。在第一阶段,我们使用混合数据选择技术,从超过 1 亿个样本中筛选出 740 万高质量基础指令(InfInstruct-F-7.4M)。在第二阶段,我们通过一个包含指令选择、演化和诊断过滤的两阶段过程,合成了 150 万高质量聊天指令(InfInstruct-G-1.5M)。我们通过对包括 Mistral、LLaMA、Qwen 和 Yi 在内的多个开源模型进行微调,实证评估了 Infinity-Instruct,并观察到在基础能力和指令遵循基准测试中均有显著的性能提升,持续超越官方指令微调模型。值得注意的是,InfInstruct-LLaMA3.1-70B 在指令遵循任务上比 GPT-4-0314 高出 8.6%,同时达到了可比的基础性能。这些结果强调了基础训练和聊天训练之间的协同作用,并为 LLM 的整体开发提供了新见解。我们的数据集 https://huggingface.co/datasets/BAAI/Infinity-Instruct 和代码 https://gitee.com/li-touch/infinity-instruct 已经公开发布。
查看 arXiv 页面查看 PDF

评论

Guang LiuGuang Liu
论文作者
论文提交者

@librarian-bot