QFFT:用于自适应推理的无问微调

发表
Wanlong LiuWanlong Liu 提交
作者: Wanlong LiuWanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang

摘要

长链式思考(CoT)推理模型的最新进展提高了其在复杂任务上的性能,但它们存在过度思考的问题,会生成冗余的推理步骤,尤其对于简单问题更是如此。本文重新审视了长CoT和短CoT模型的推理模式,观察到短CoT模式能高效地提供简洁推理,而长CoT模式则在短CoT模式难以应对的挑战性场景中表现出色。为了使模型能够利用这两种模式,我们提出了无问题微调(QFFT),这是一种在训练过程中移除输入问题并仅从长CoT响应中学习的微调方法。这种方法使模型能够自适应地运用两种推理模式:它优先采用短CoT模式,并仅在必要时激活长CoT模式。在各种数学数据集上的实验表明,QFFT将平均响应长度减少了50%以上,同时达到了与监督式微调(SFT)相当的性能。此外,在噪声、域外和低资源场景中,QFFT表现出优于SFT的性能。
查看 arXiv 页面查看 PDF

评论

Wanlong LiuWanlong Liu
论文作者
论文提交者

使用长链思维(Long CoT)数据微调的模型,在面对简单问题时常会过度思考,生成冗长的推理。一种新的SFT方法——QFFT,通过在训练期间移除问题并仅使用长链思维答案进行微调来解决此问题。

这种方法保留了模型原生的短链思维(Short CoT)能力,避免了传统SFT中“问题→长链思维”的映射陷阱。通过学习答案结构,模型在遇到错误或复杂问题时可以激活长链思维的深度思考,而在简单任务中则默认使用高效的短链思维。

结果令人印象深刻:数学任务的响应长度减少了40%,性能与SFT相当,并具有卓越的抗噪性和跨领域泛化能力。在噪声数据中,QFFT仍能保持78.6%的性能,而SFT仅为0.4%,并且在低资源场景中表现出色。