少即是多:使用小型网络进行递归推理


摘要
评论
与论文中展示的模型不完全相同。
但我已在 Sudoku challenge 上训练了一个模型。
https://huggingface.co/ZoneTwelve/HRM-Sudoku
我不明白将 HRM 和 TRM 等模型与 LLM 进行比较的这种新趋势?
这有什么相关性?它们不是 LLM。术语“推理”与 LLM 中的推理无关。我什至不认为这些技术适用于 LLM,是吗?
比如,一个为特定任务训练的专业模型,当然会比一个为完全不同类别问题训练的 LLM 表现更好,对吧?
就此而言,在 ARC-AGI 上测试这些模型有什么相关性?ARC-AGI 是一个用于评估 LLM 问题解决能力的基准。
这简直是风马牛不相及,不是吗?喷气式飞机与气象气球?气象气球显然在监测天气方面要好得多,但喷气式飞机有很多其他用途。
将这些模型与其他专业模型进行比较:它们是否明显更小或更快?
提供我们可以实际比较的数据。
我真的不知道这些模型是否有任何真正新颖之处,因为你们没有提供任何与任何类似事物相关的比较。🤷♂️

谢谢,我以前从未听说过信念状态工程。
我从以下来源找到了这个定义:
Hu, E.S., Ahn, K., Liu, Q., Xu, H., Tomar, M., Langford, A., Jayaraman, D., Lamb, A. and Langford, J., 2024. Learning to achieve goals with belief state transformers. arXiv e-prints, pp.arXiv-2410. https://doi.org/10.48550/arXiv.2410.23506
> 非正式地说,信念状态是来自过去的足够信息,可以预测未来所有实验的结果,这可以表示为对潜在世界状态的分布或对未来结果的分布。
少即是多