⏶39
指令和推理数据如何塑造后训练:通过分层梯度的视角看数据质量
发表
由
Tianyi Zhou 提交

作者: Ming Li,
Yanhong Li, Ziyue Li,
Tianyi Zhou

摘要
随着大型语言模型 (LLM) 的后训练从指令跟随发展到复杂的推理任务,了解不同数据如何影响微调动态仍然很大程度上未被探索。在本文中,我们对低/高质量指令和推理数据引起的大型语言模型后训练的逐层梯度进行了频谱分析。我们的分析表明,广泛研究的数据评估指标,例如 IFD、InsTag、难度和奖励,可以通过从梯度奇异值分解 (SVD) 计算出的频谱属性来解释和统一。具体而言,更高质量的数据通常与较低的核范数和较高的有效秩相关联。值得注意的是,在捕捉细微的质量差异方面,有效秩比核范数表现出更好的鲁棒性和分辨率。例如,推理数据比指令数据获得明显更高的有效秩,这意味着在更复杂的任务上具有更丰富的梯度结构。我们的实验还强调,同一模型系列内的模型无论其大小如何,都共享相似的梯度模式,而不同的模型系列则存在显著差异。这项工作为跨指令和推理数据的数据质量影响提供了一个统一的视角,阐明了数据质量和训练稳定性之间的相互作用,为开发更好的后训练数据探索策略提供了新的见解。
代码: https://github.com/MingLiiii/Gradient_Unified