少即是多:使用小型网络进行递归推理

发表
Alexia Jolicoeur-MartineauAlexia Jolicoeur-Martineau 提交
作者: Alexia Jolicoeur-MartineauAlexia Jolicoeur-Martineau

摘要

AI 生成总结
微型递归模型(TRM)使用一个具有最少参数的小型两层网络,在复杂的谜题任务上实现了高泛化能力,优于更大的语言模型。
分层推理模型(HRM)是一种新颖的方法,使用两个以不同频率递归的小型神经网络。这种受生物学启发的​​方法在 Sudoku、Maze 和 ARC-AGI 等困难的谜题任务上击败了大型语言模型(LLMs),尽管它使用小型模型(27M 参数)和少量数据(约 1000 个示例)进行训练。HRM 在用小型网络解决困难问题方面显示出巨大潜力,但目前尚未得到充分理解,并且可能不是最优的。我们提出了 Tiny Recursive Model(TRM),一种更简单的递归推理方法,它实现了比 HRM 显著更高的泛化能力,同时使用一个仅包含 2 层的微型网络。仅用 7M 参数,TRM 在 ARC-AGI-1 上获得了 45% 的测试准确率,在 ARC-AGI-2 上获得了 8% 的测试准确率,这高于大多数 LLMs(例如 Deepseek R1、o3-mini、Gemini 2.5 Pro),而参数量却不到其万分之一。
查看 arXiv 页面查看 PDF

评论

Alexia Jolicoeur-MartineauAlexia Jolicoeur-Martineau
论文作者
论文提交者

少即是多

Gurumurthi V RamananGurumurthi V Ramanan

作者或其他人提供了任何检查点吗?

Clem 🤗Clem 🤗

据我所见,还没有。cc @AlexiaJM

ZoneTwelveZoneTwelve

与论文中展示的模型不完全相同。
但我已在 Sudoku challenge 上训练了一个模型。
https://huggingface.co/ZoneTwelve/HRM-Sudoku

ZoneTwelveZoneTwelve

这里有更多 Huggingface 上的模型:
https://huggingface.co/models?other=arxiv:2506.21734

Francisco Javier ArceoFrancisco Javier Arceo

太棒了!!!

您能提供包含代码和数据集的仓库链接吗?

Jason ChengJason Cheng

它在任务调优方面表现得非常好,例如数独……即使它不是通用人工智能之类的东西,这对小型、特定领域任务来说也可能是革命性的。

Derek AustinDerek Austin

在这些类型的任务上,常规的有监督学习方法表现如何?我不太明白这与更大的前向传播有什么区别。或者仅仅是学习效率的差异?

Henry WardHenry Ward

结论中的这句话暗示该架构优于没有递归推理的大型网络:
> 为什么递归比使用更大更深的网络有如此大的帮助,这个问题仍有待解释;我们怀疑这与过拟合有关,但我们没有理论来支持这种解释(sic

Rasmus SchultzRasmus Schultz

我不明白将 HRM 和 TRM 等模型与 LLM 进行比较的这种新趋势?

这有什么相关性?它们不是 LLM。术语“推理”与 LLM 中的推理无关。我什至不认为这些技术适用于 LLM,是吗?

比如,一个为特定任务训练的专业模型,当然会比一个为完全不同类别问题训练的 LLM 表现更好,对吧?

就此而言,在 ARC-AGI 上测试这些模型有什么相关性?ARC-AGI 是一个用于评估 LLM 问题解决能力的基准。

这简直是风马牛不相及,不是吗?喷气式飞机与气象气球?气象气球显然在监测天气方面要好得多,但喷气式飞机有很多其他用途。

将这些模型与其他专业模型进行比较:它们是否明显更小或更快?

提供我们可以实际比较的数据。

我真的不知道这些模型是否有任何真正新颖之处,因为你们没有提供任何与任何类似事物相关的比较。🤷‍♂️

Henry WardHenry Ward

ARC-AGI 是用于评估任何 AI 流体智力的基准——不仅仅是 LLM。

TRM 在这些基准上的表现优于任何已知架构,这本身就很有趣。

ale brownale brown

我猜没有人理解更大的真相。这种递归式的推理风格实际上是信念状态工程。它在架构层面上实现了这一点——尽管你可以在训练期间通过在普通仅解码器 LM 中添加一个额外的编码器来实现类似的功能。很棒的论文。希望看到更多这样的论文,并希望人们有一天能将信念状态工程推及到其他研究领域,它将取代强化学习。

Henry WardHenry Ward

谢谢,我以前从未听说过信念状态工程。
我从以下来源找到了这个定义:
Hu, E.S., Ahn, K., Liu, Q., Xu, H., Tomar, M., Langford, A., Jayaraman, D., Lamb, A. and Langford, J., 2024. Learning to achieve goals with belief state transformers. arXiv e-prints, pp.arXiv-2410. https://doi.org/10.48550/arXiv.2410.23506
> 非正式地说,信念状态是来自过去的足够信息,可以预测未来所有实验的结果,这可以表示为对潜在世界状态的分布或对未来结果的分布。