⏶2
Light-IF:通过预览和自检赋予大型语言模型可泛化推理能力,以遵循复杂指令
发表
由
wenliang 提交
作者: Chenyang Wang,
Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu
摘要
尽管LLM推理能力的进步显著提升了它们在解决数学问题、编码任务和一般谜题方面的表现,但它们在准确遵循指令方面的有效性仍然不一致,特别是对于更复杂的指令。我们的调查发现,在思考阶段的惰性推理是导致指令遵循不佳的主要因素。为了缓解这个问题,我们提出了一个综合框架,旨在实现严谨的推理过程,包括预览和自检,这对于满足严格的指令约束至关重要。具体来说,我们首先生成具有复杂约束的指令,并应用过滤过程以获得有效提示,从而得到三种不同的提示数据集,分为“难”、“易”和“通过”。然后,我们对“通过”提示采用拒绝采样,以策划一个小型但高质量的数据集,从而实现模型的冷启动初始化并促进其适应有效的推理模式。随后,我们采用熵保留监督微调(Entropy-SFT)策略,结合由基于规则的密集奖励指导的令牌自适应熵强化学习(TEA-RL)。这种方法鼓励模型改变其推理机制,最终培养出包含预览和自检的可泛化推理能力。在指令遵循基准上进行的广泛实验表明,各种模型规模的性能都有显著提高。值得注意的是,我们的Light-IF-32B模型超越了DeepSeek-R1等更大的开源模型以及豆包-1.6等闭源模型。
Light-IF 是一个强大的指令遵循大型语言模型(LLM)系列,它利用预览检查推理来处理复杂指令,并具有可泛化的行为——所有这些训练的计算成本都不到 3000 美元。