⏶9
引导思考只需两位专家:在无需额外训练的MoE推理模型中加强认知努力
发表
由
Ningyu Zhang 提交
作者: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi,
Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
摘要
大型推理模型 (LRM) 中的专家混合 (MoE) 架构通过选择性地激活专家以促进结构化认知过程,取得了令人印象深刻的推理能力。尽管取得了显著进展,但现有推理模型通常存在认知效率低下问题,例如过度思考和思考不足。为了解决这些局限性,我们引入了一种名为强化认知专家 (RICE) 的新型推理时引导方法,旨在在无需额外训练或复杂启发式方法的情况下提高推理性能。利用归一化点互信息 (nPMI),我们系统地识别出专门的专家,称之为“认知专家”,这些专家负责协调元级推理操作,其特征由诸如“<think>”之类的标记表示。在严格的定量和科学推理基准测试中,对领先的基于 MoE 的 LRM(DeepSeek-R1 和 Qwen3-235B)进行的实证评估表明,推理准确性、认知效率和跨域泛化能力均有显著且持续的提升。至关重要的是,我们这种轻量级方法显著优于流行的推理引导技术,例如提示设计和解码约束,同时保留了模型的通用指令遵循能力。这些结果表明,强化认知专家是提高高级推理模型认知效率的一个有前景、实用且可解释的方向。
我们提出了一种新颖的推理时干预方法,称为强化认知专家(Reinforcing Cognitive Experts, RICE),旨在无需额外训练或复杂启发式方法即可提升推理性能。利用归一化点互信息(nPMI),我们系统地识别了专门的专家,我们称之为“认知专家”,他们负责组织由诸如“”之类的标记所表征的元级推理操作。在严格的定量和科学推理基准测试上,使用领先的基于MoE的LRMs(DeepSeek-R1和Qwen3-235B)进行的实证评估显示出显著且一致的提升。