⏶3
数据混合代理:学习为持续预训练重新加权领域
发表
由
Xiao Liu 提交

作者:
Kailai Yang,
Xiao Liu, Lei Ji, Hao Li, Yeyun Gong, Peng Cheng, Mao Yang

摘要
在小规模特定任务数据上进行持续预训练是改进新目标领域大型语言模型的有效方法,但它存在灾难性遗忘其原始能力的风险。一个常见的解决方案是在领域空间上重新加权源领域和目标领域的训练数据混合,以实现平衡的性能。以前的领域重新加权策略依赖于基于人类直觉或经验结果的某些启发式方法进行手动指定。在这项工作中,我们通过提出数据混合代理(Data Mixing Agent)来证明更通用的启发式方法可以参数化,数据混合代理是第一个基于模型、端到端学习如何重新加权领域的框架。该代理通过强化学习,在大量数据混合轨迹以及来自评估环境的相应反馈中学习可泛化的启发式方法。在数学推理持续预训练方面的实验表明,数据混合代理在实现源领域和目标领域基准的平衡性能方面优于强大的基线。此外,它在不重新训练的情况下,对未见过的源领域、目标模型和领域空间具有良好的泛化能力。直接应用于代码生成领域也表明其在目标领域中的适应性。进一步的分析展示了代理的启发式方法与人类直觉高度一致,以及它们在以更少的源领域数据实现卓越模型性能方面的效率。
在小规模特定任务数据上进行持续预训练是改进新目标领域大型语言模型的有效方法,但这也有丢失其原有能力的灾难性遗忘风险。一个常见的解决方案是在领域空间上重新加权源域和目标域的训练数据混合物,以实现平衡的性能。之前的领域重加权策略依赖于基于人类直觉或经验结果的某些启发式手动指定。在这项工作中,我们通过提出数据混合智能体(Data Mixing Agent)证明了更通用的启发式方法可以参数化,这是第一个基于模型、端到端学习如何重加权领域的框架。该智能体通过对大量数据混合轨迹进行强化学习,并结合评估环境的相应反馈,学习可泛化的启发式方法。在数学推理持续预训练方面的实验表明,数据混合智能体在源领域和目标领域基准测试中,在实现平衡性能方面优于强大的基线。此外,它在无需重新训练的情况下,对未见的源领域、目标模型和领域空间也表现出良好的泛化能力。直接应用于代码生成领域也表明其在目标领域之间的适应性。进一步的分析展示了智能体与人类直觉高度契合的启发式方法,以及它们在更少源领域数据的情况下实现卓越模型性能的效率。