InfiAlign: 一种可扩展且样本高效的框架,用于对齐大型语言模型以增强推理能力

发表
Yuhang LiuYuhang Liu 提交
作者: Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai XieCongkai Xie, Hongxia Yang

摘要

大型语言模型(LLM)在各种复杂任务中展现出令人印象深刻的推理能力。然而,通过后期训练来增强这些能力仍然是资源密集型的,尤其是在数据和计算成本方面。尽管最近的努力旨在通过选择性数据整理来提高样本效率,但现有方法通常依赖于启发式或任务特定的策略,这阻碍了可扩展性。在这项工作中,我们引入了 InfiAlign,一个可扩展且样本高效的后期训练框架,它将监督微调(SFT)与直接偏好优化(DPO)相结合,以对齐 LLM 以增强推理能力。InfiAlign 的核心是一个强大的数据选择管道,它利用多维质量指标从开源推理数据集中自动筛选高质量的对齐数据。这个管道在显著减少数据需求的同时实现了显著的性能提升,并且可以扩展到新的数据源。当应用于 Qwen2.5-Math-7B-Base 模型时,我们的 SFT 模型实现了与 DeepSeek-R1-Distill-Qwen-7B 相当的性能,而训练数据仅使用了大约 12%,并在各种推理任务中表现出强大的泛化能力。通过应用 DPO 获得了额外的改进,特别是在数学推理任务中取得了显著的提升。该模型在 AIME 24/25 基准测试中平均提高了 3.89%。我们的结果突出了将原则性数据选择与全阶段后期训练相结合的有效性,为以可扩展和数据高效的方式对齐大型推理模型提供了实用的解决方案。模型检查点可在 https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT 获取。
查看 arXiv 页面查看 PDF

评论

Shuo CAIShuo CAI
此评论已隐藏。
Yuhang LiuYuhang Liu
论文提交者

本文介绍了 InfiAlign,一个可扩展且样本高效的训练后框架,它能增强大型语言模型的推理能力,同时大幅降低数据和计算成本。InfiAlign 将监督微调(SFT)与直接偏好优化(DPO)相结合,采用自动化数据选择管道,利用多样性、难度和质量等多维度指标,从各种开源推理语料库中筛选高质量的对齐数据。将其应用于 Qwen2.5-Math-7B-Base 模型,InfiAlign 取得了与 R1-Distill-Qwen-7B 等领先蒸馏基线相当或超越的性能,而仅使用了其 12% 的训练数据——这表明原则性的对齐策略可以在不产生过高资源需求的情况下提供最先进的结果。