⏶8

重新审视模型插值以实现高效推理

10月13日发表

10月16日由 Taki WU 提交

作者: Taiqiang Wu, Runming Yang, Tao Liu, Jiahao Wang, Ngai Wong

摘要

模型合并，通常在指令和思考模型上进行，在高效推理方面已显示出卓越的性能。在本文中，我们系统地回顾了最简单的模型合并方法，即直接插值两个权重。特别地，我们观察到模型插值遵循一个三阶段演化范例，在推理轨迹上表现出不同的行为。这些动态为导航性能-成本权衡提供了原则性的指导。经验结果表明，策略性插值模型在效率和有效性方面均能令人惊讶地超越复杂的模型合并基线。我们进一步通过对模型层、模块和解码策略的广泛消融研究来验证我们的发现。最终，这项工作揭开了模型插值的神秘面纱，并为构建具有精确目标推理能力的模型提供了一个实用的框架。代码可在 https://github.com/wutaiqiang/MI{Github} 获取。

查看 arXiv 页面查看 PDF

重新审视模型插值以实现高效推理

评论

Taki WU

论文作者

论文提交者

重新审视用于高效推理的最简单方法：Instruct 和 Thinking 变体的模型插值。本文发现模型插值遵循一个三阶段演化范式，在推理轨迹上表现出不同的行为。

代码：https://github.com/wutaiqiang/MI

Taki WU

论文作者

论文提交者

第一阶段。对应 Qwen3-4B 模型 λ ∈ [0, 0.4) 的情况。在这个初始阶段，融合模型主要由 Instruct 模型主导，但开始融入 Thinking 模型的特征，从而在不采用显式思考过程的情况下生成更长的输出。

第二阶段。对应 Qwen3-4B 模型 λ ∈ [0.4, 0.6] 的情况。在此阶段，遵循 Thinking 模型推理的模式迅速出现，导致 Mean@k 大幅增加，而 Pass@k 和 Token #N 温和增加。此阶段标志着一个关键且剧烈的相变。

第三阶段。对应 Qwen3-4B 模型 λ ∈ (0.6, 1.0] 的情况。在这个最终阶段，融合模型收敛到纯 Thinking 模型，Token #N 持续增加，而 Pass@k 和 Mean@k 略有变化。

Taki WU

论文作者

论文提交者

Qwen3-30B-A3B 类似

Taki WU

论文作者

论文提交者

如果我们跳过 FFN，生成的比例会下降到接近 0。
-> FFN 对思考模式至关重要！

Joey Lee

非常有趣的发现！