⏶1

SATQuest: 用于逻辑推理评估和语言模型（LLM）微调的验证器

08月31日发表

09月04日由 Adam Yanxiao Zhao 提交

作者: Yanxiao Zhao, Yaqian Li, Zihao Bo, Rinyoichi Takezoe, Haojia Hui, Mo Guang, Lei Ren, Xiaolin Qin, Kaiwen Long

摘要

近期，大型语言模型（LLM）在通用推理能力方面取得了显著进展。然而，由于缺乏可控且可扩展的精细化分析工具，系统地评估和增强这些推理能力面临挑战。现有的基准测试和数据集往往缺乏多维度、系统性分析和训练所需的变量控制，或者问题类型和格式较为狭窄。为了克服这些局限性，我们引入了 SATQuest，一个系统的验证器，旨在通过直接从合取范式（CNF）实例生成多样化的、基于可满足性（Satisfiability）的逻辑推理问题，来评估和增强 LLM 的逻辑推理能力。SATQuest 沿三个正交维度来构建这些问题：实例规模、问题类型和问题格式，并采用随机的、基于 SAT 的问题生成以及通过 PySAT 进行客观答案验证。这种设计缓解了记忆化问题，能够提供对推理性能的细致洞察，并实现有效的强化微调。我们使用 SATQuest 对各种 LLM 进行的广泛评估，发现了它们在逻辑推理方面存在的显著局限性，特别是在泛化到熟悉数学格式之外的推理能力方面。此外，我们证明了使用 SATQuest 奖励进行强化微调，可以显著提高目标任务的性能，并泛化到更复杂的问题，同时突显了跨格式适应性方面仍然存在的挑战。通过这些演示，我们展示了 SATQuest 作为基础工具和推动 LLM 逻辑推理发展的宝贵起点的潜力。

查看 arXiv 页面查看 PDF

Adam Yanxiao Zhao

论文作者

论文提交者

本文介绍了 SATQuest，这是一个用于评估和改进 LLM 逻辑推理的系统化验证器。与现有通常缺乏多维度控制的基准测试不同，SATQuest 直接从 CNF 实例生成基于 SAT 的推理问题，这些问题沿着三个正交维度构建：实例规模、问题类型和问题格式。该框架采用随机生成，并通过 PySAT 进行客观答案验证，从而实现可重现的精细化分析。

实验表明，当前的 LLM（包括 vanilla 和经过推理增强的模型）在逻辑推理方面仍然面临严峻的挑战，特别是在扩展到更难的实例和跨不同格式（Math、DIMACS、Story、DualStory）进行泛化方面。虽然使用 SATQuest 奖励进行强化微调 (RFT) 可显著提高目标性能并促进更长的推理链，但跨格式泛化仍然很困难。

总的来说，SATQuest 是一个推动 LLM 逻辑推理发展的基石工具，它既提供了强大的基准测试，也提供了一个由验证器驱动的 RFT 框架。

SATQuest: 用于逻辑推理评估和语言模型（LLM）微调的验证器

摘要

评论