⏶11

博士水平的LLMs真的掌握了初等加法吗？探究大型语言模型中的规则学习与记忆

04月07日发表

04月14日由 ZhenzhongLan 提交

作者: Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan

摘要

尽管基准分数很高，但大型语言模型 (LLM) 经常在简单问题上失败，这提出了一个关键问题：LLM 学习的是数学原理还是仅仅记忆模式？与最近作品中设计越来越复杂的基准不同，我们使用基本的两位整数加法（0 到 2^{64}）来研究这个问题，探测两个核心属性：交换律 (A+B=B+A) 和组合泛化（通过同构符号映射，例如，7 → y）。虽然最先进的 LLM 在数值加法方面实现了 73.8-99.8% 的准确率，但在符号映射下，性能暴跌至 ≤7.5%，表明未能泛化学习规则。随位数增加的非单调性能缩放和频繁的交换律违反（超过 1,700 例 A+B ≠ B+A）进一步支持了这一点。显式提供加法规则平均会使性能降低 81.2%，而自我解释则保持了基线准确率，这表明 LLM 的算术处理与人类定义的原理不一致。我们的发现表明，当前的 LLM 依赖于记忆模式而不是真正的规则学习，突出了架构限制以及实现真正数学推理的新方法的必要性。

查看 arXiv 页面查看 PDF

ZhenzhongLan

论文提交者

有趣的是，大型语言模型在数值加法上得分接近完美，但当数字被符号替换时却会灾难性地失败，这揭示了这些 “博士级” 模型实际上并不理解基本加法的数学原理，而仅仅是识别熟悉的模式。更令人惊讶的是，明确提供加法规则会使它们的性能显著下降。

Michael Barry

我最近看了一个 Veritasium 的视频 (https://m.youtube.com/watch?v=0xS68sl2D70)，虽然它可能不严谨科学，但他似乎暗示人类一开始就没有这种泛化能力，只有高级的模式匹配。他给出的例子是，他们让国际象棋大师记住棋盘，他们可以很好地记住棋盘，但是如果他们将棋盘打乱成随机分布，大师们就无法记住棋盘，表现得和非象棋选手一样。

我开始怀疑模式匹配是否就是我们能达到的最好水平。也许我们正在尝试训练模型去做一些我们自己都不具备能力的事情。

Yang Yan

论文作者

> 我最近看了一个 veritasium 的视频 (https://m.youtube.com/watch?v=0xS68sl2D70)，虽然不是很科学严谨，但他似乎暗示人类一开始就没有这种泛化能力，只有高级的模式匹配能力。他给出的例子是，他们要求国际象棋大师记住棋盘，他们可以很好地记住棋盘，但是如果他们将棋盘打乱成随机分布，国际象棋大师就无法记住棋盘，表现得和非国际象棋选手一样。

> 我开始怀疑模式匹配是否就是极限了。也许我们正在尝试训练模型做一些我们自己都无法做到的事情。

嗨，Michael，

感谢分享这个有趣的视频和你的想法，这真的很有趣，发人深省。虽然我的观点是，当前的 SFT 主要训练模型来模仿在训练数据中观察到的模式，而不是真正理解支配这些模式的潜在原理。

关于国际象棋的例子，大师们可能不会记住棋盘照片，这似乎是合理的。相反，他们可能会根据自己的经验识别有意义的策略和移动序列（高层次的知识/原则）。当呈现随机、不合逻辑的棋盘状态时，这种熟悉的知识就会消失，从而抵消了他们的专业知识，并迫使他们像新手一样依赖原始记忆（低层次的模式，就像图片中的像素）。

从认知科学中的发展心理学中类比，人类的学习通常从观察/模仿开始，经过积极的经验（试错），到构建抽象原则和理解。当前的 SFT 主要在最初的观察/模仿阶段运行。 RL 引入了基于经验的学习的各个方面，但通常仍然依赖于启发式方法（如 o1/r1 之类的方法）。

因此，主要的挑战仍然是：我们如何使模型超越模式复制，真正地学习、推理、概括和抽象它们处理的数据中的基本原理？

runshengdu

🔥 我们是 AlayaDB.AI，一家专注于 LLM 时代数据基础设施的初创公司，包括向量数据库和 LLM 推理系统。我们的网站：http://www.alayadb.tech/

博士水平的LLMs真的掌握了初等加法吗？探究大型语言模型中的规则学习与记忆

摘要

评论