博士水平的LLMs真的掌握了初等加法吗?探究大型语言模型中的规则学习与记忆

04月07日发表
04月14日由 ZhenzhongLanZhenzhongLan 提交
作者: Yang YanYang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan

摘要

尽管基准分数很高,但大型语言模型 (LLM) 经常在简单问题上失败,这提出了一个关键问题:LLM 学习的是数学原理还是仅仅记忆模式?与最近作品中设计越来越复杂的基准不同,我们使用基本的两位整数加法(0 到 2^{64})来研究这个问题,探测两个核心属性:交换律 (A+B=B+A) 和组合泛化(通过同构符号映射,例如,7 → y)。虽然最先进的 LLM 在数值加法方面实现了 73.8-99.8% 的准确率,但在符号映射下,性能暴跌至 ≤7.5%,表明未能泛化学习规则。随位数增加的非单调性能缩放和频繁的交换律违反(超过 1,700 例 A+B ≠ B+A)进一步支持了这一点。显式提供加法规则平均会使性能降低 81.2%,而自我解释则保持了基线准确率,这表明 LLM 的算术处理与人类定义的原理不一致。我们的发现表明,当前的 LLM 依赖于记忆模式而不是真正的规则学习,突出了架构限制以及实现真正数学推理的新方法的必要性。
查看 arXiv 页面查看 PDF

评论

ZhenzhongLanZhenzhongLan
论文提交者

有趣的是,大型语言模型在数值加法上得分接近完美,但当数字被符号替换时却会灾难性地失败,这揭示了这些 “博士级” 模型实际上并不理解基本加法的数学原理,而仅仅是识别熟悉的模式。 更令人惊讶的是,明确提供加法规则会使它们的性能显著下降。

Yang YanYang Yan
论文作者

> 我最近看了一个 veritasium 的视频 (https://m.youtube.com/watch?v=0xS68sl2D70),虽然不是很科学严谨,但他似乎暗示人类一开始就没有这种泛化能力,只有高级的模式匹配能力。 他给出的例子是,他们要求国际象棋大师记住棋盘,他们可以很好地记住棋盘,但是如果他们将棋盘打乱成随机分布,国际象棋大师就无法记住棋盘,表现得和非国际象棋选手一样。

>

> 我开始怀疑模式匹配是否就是极限了。 也许我们正在尝试训练模型做一些我们自己都无法做到的事情。

嗨,Michael,

感谢分享这个有趣的视频和你的想法,这真的很有趣,发人深省。 虽然我的观点是,当前的 SFT 主要训练模型来模仿在训练数据中观察到的模式,而不是真正理解支配这些模式的潜在原理。

关于国际象棋的例子,大师们可能不会记住棋盘照片,这似乎是合理的。 相反,他们可能会根据自己的经验识别有意义的策略和移动序列(高层次的知识/原则)。 当呈现随机、不合逻辑的棋盘状态时,这种熟悉的知识就会消失,从而抵消了他们的专业知识,并迫使他们像新手一样依赖原始记忆(低层次的模式,就像图片中的像素)。

从认知科学中的发展心理学中类比,人类的学习通常从观察/模仿开始,经过积极的经验(试错),到构建抽象原则和理解。 当前的 SFT 主要在最初的观察/模仿阶段运行。 RL 引入了基于经验的学习的各个方面,但通常仍然依赖于启发式方法(如 o1/r1 之类的方法)。

因此,主要的挑战仍然是:我们如何使模型超越模式复制,真正地学习、推理、概括和抽象它们处理的数据中的基本原理?

runshengdurunshengdu

🔥 我们是 AlayaDB.AI,一家专注于 LLM 时代数据基础设施的初创公司,包括向量数据库和 LLM 推理系统。我们的网站:http://www.alayadb.tech/