通过探究知识和推理来揭秘大型语言模型中的科学问题解决

发表
Alan LiAlan Li 提交
作者: Alan LiAlan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan

摘要

科学问题的解决对大型语言模型 (LLM) 提出了独特的挑战,它既需要深厚的领域知识,也需要通过复杂推理应用此类知识的能力。虽然自动科学推理器有望协助人类科学家,但目前还没有一个广泛采用的整体性基准来评估科学推理,并且很少有方法能够系统地区分知识和推理在这些任务中的不同作用。为了弥补这些不足,我们引入了 SciReas,这是一套多样化的现有科学推理任务基准;以及 SciReas-Pro,一个需要更复杂推理的选择性子集。我们的整体评估揭示了关于科学推理表现的见解,这些见解在仅依赖单个基准时会隐藏起来。然后,我们提出了 KRUX,一个用于研究推理和知识在科学任务中不同作用的探测框架。将两者结合,我们进行了深入分析,得出了几个关键发现:(1) 从模型参数中检索任务相关知识是 LLM 在科学推理中的关键瓶颈;(2) 推理模型在推理增强的基础上,通过上下文外部知识的添加持续受益;(3) 增强口头推理能力可以提高 LLM 显现任务相关知识的能力。最后,我们进行了一项轻量级分析,将我们以科学为中心的组成部分与同步进行的关于长链思维 (CoT) SFT 的工作进行了比较,并发布了 SciLit01,这是一个强大的 8B 科学推理基线。
查看 arXiv 页面查看 PDF

评论

Alan LiAlan Li
论文作者
论文提交者

🚀 新论文:揭示大型语言模型科学问题解决能力——我们区分模型所知道的内容与其推理方式,并展示两者对于科学任务的重要性。https://arxiv.org/pdf/2508.19202v1