超越“灵光一闪!”:迈向大型推理模型中系统的元能力对齐

发表
Zhiyuan HuZhiyuan Hu 提交
作者: Zhiyuan HuZhiyuan Hu, Yibo Wang, Hanze DongHanze Dong, Yuhui XuYuhui Xu, Amrita SahaAmrita Saha, Caiming XiongCaiming Xiong, Bryan HooiBryan Hooi, JunnanLiJunnan Li

摘要

大型推理模型 (LRM) 已经具备进行长链式思维推理 (long chain-of-thought reasoning) 的潜在能力。先前的工作表明,基于结果的强化学习 (RL) 可以偶然诱发高级推理行为,例如自我纠正 (self-correction)、回溯 (backtracking) 和验证 (verification),这些现象常被称为模型的“顿悟时刻 (aha moment)”。然而,这些涌现行为的时机和一致性仍然不可预测和不可控,限制了 LRM 推理能力的可扩展性和可靠性。为了解决这些限制,我们不再依赖提示 (prompts) 和偶然的“顿悟时刻”。相反,我们使用自动生成、可自验证的任务,显式地将模型与三种元能力 (meta-abilities) 对齐:演绎 (deduction)、归纳 (induction) 和溯因 (abduction)。我们的三阶段流水线——个体对齐 (individual alignment)、参数空间合并 (parameter-space merging) 和领域特定强化学习 (domain-specific reinforcement learning)——将性能比指令微调 (instruction-tuned) 基线提升了 10% 以上。此外,从对齐检查点进行的领域特定强化学习在数学、编码和科学基准测试中使性能上限平均额外提高了 2%,这表明显式的元能力对齐为推理提供了可扩展和可靠的基础。代码可在以下网址获取:https://github.com/zhiyuanhubj/Meta-Ability-Alignment
查看 arXiv 页面查看 PDF

评论

Zhiyuan HuZhiyuan Hu
论文作者
论文提交者

不仅仅是 '顿悟':迈向大型推理模型中的系统性元能力对齐

YJYJ

移动学习音频概述:https://youtu.be/dW0gb6PV0EM

ChatGPT Image May 16, 2025, 09_40_29 AM.png