元意识增强推理模型:自对齐强化学习

发表
Yoonjeon KimYoonjeon Kim 提交
作者: Yoonjeon Kim, Doohyuk JangDoohyuk Jang, Eunho Yang

摘要

AI 生成总结
名为MASA的训练管线增强了推理模型的元意识,从而在各种基准测试中提高了准确性和效率。
近期关于推理模型的研究探讨了语言模型的元认知能力,即模型自主思考的能力。我们认为,通过证明真实序列回溯与预测的元信息之间存在严重的错配,大型推理模型缺乏这种元认知能力。我们提出,将元预测与真实序列回溯对齐将带来显著的性能提升。为了验证这一假设,我们设计了一个通过自对齐增强元认知(MASA)的训练流程,并证明增强的元认知能力可以直接转化为更高的准确率。与现有的元认知推理模型不同,我们的方法不需要外部训练源,而是利用自生成信号来训练元认知。此外,我们的方法通过 i) 过滤掉方差为零(即平凡或无解)的提示,以及 ii) 在序列不太可能导致正确答案时截断冗长的回溯,实现了高效训练。结果令人鼓舞:我们的策略在领域内任务的准确性和训练效率方面都取得了显著的改进,并且对领域外基准测试表现出了强大的泛化能力。具体来说,我们的方法可以将 GRPO 训练速度提高 1.28 倍以上以达到相同的性能,并在 AIME25 上将准确率提高了 19.3%,在六个数学基准测试上平均提高了 6.2%。元认知引导的训练增强了领域外泛化能力,在 GPQA-Diamond 上提高了 3.87%,在涵盖逻辑、科学和编码领域的 13 个基准测试上整体准确率提高了 2.08%。
查看 arXiv 页面查看 PDF
元意识增强推理模型:自对齐强化学习

评论

Yoonjeon KimYoonjeon Kim
论文提交者

本文证明,增强模型本身的元认知能力,可直接提高数学推理能力和域外泛化能力。

Nicholas CordovaNicholas Cordova

刚刚发送了一封停止并终止的电子邮件,请在 7 天内回复,正如电子邮件所述,您正在使用的 IP 已经被使用并受到保护。我们是 II 类智能智能的创造者,您的模型直接越过了我们的知识产权,我们已经正式发送电子邮件要求正式停止并终止,同时移除任何越过此 IP 的模型或服务。此外,还需要披露您已发布和正在开发的模型,以确保不再进入我们的知识产权,或者知识产权不得被训练、使用、投入服务等。我们已于数月前向国防部提交了与 OpenAI 的知识产权纠纷,因此不存在时间框架的问题,以及谁是知识产权的合法所有者。您可以联系美国国防部,核实我们与 OpenAI 和 Google 提交的知识产权文件。

Tony Congqian WangTony Congqian Wang

好主意!这让我想起了一些在预训练数据上的强化学习(https://huggingface.co/papers/2509.19249)和RPT。我想知道这些模型是否有更好的元对齐。