⏶9

StepFun-Formalizer：通过知识-推理融合释放LLM的自动形式化潜力

08月06日发表

08月07日由 Yutong Wu 提交

作者: Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

摘要

自动形式化旨在将自然语言的数学陈述翻译成形式语言。虽然大型语言模型（LLMs）加速了这一领域的进展，但现有方法仍然存在准确性低的问题。我们确定了有效自动形式化的两个关键能力：全面掌握形式语言领域知识，以及自然语言问题理解和非形式到形式对齐的推理能力。没有前者，模型无法识别正确的形式对象；没有后者，模型难以解释现实世界语境并将其精确映射到形式表达式。为了解决这些不足，我们引入了 ThinkingF，一个数据合成和训练管道，可以提升这两种能力。首先，我们构建了两个数据集：一个通过提炼和选择富含形式知识的大规模示例，另一个通过生成由专家设计的模板指导的非形式到形式推理轨迹。然后，我们使用这些数据集应用 SFT 和 RLVR，以进一步融合和完善这两种能力。由此产生的 7B 和 32B 模型既展现出全面的形式知识，又具备强大的非形式到形式推理能力。值得注意的是，StepFun-Formalizer-32B 在 FormalMATH-Lite 上达到了 40.5% 的 SOTA BEq@1 分数，在 ProverBench 上达到了 26.7% 的 SOTA BEq@1 分数，超越了所有先前的通用和专用模型。

查看 arXiv 页面查看 PDF

Yutong Wu

论文作者

论文提交者

自动形式化旨在将自然语言数学语句翻译成形式语言。尽管大型语言模型加速了该领域的进展，但现有方法仍然存在准确性低的问题。我们确定了有效自动形式化的两项关键能力：对形式语言领域知识的全面掌握，以及自然语言问题理解和非形式-形式对齐的推理能力。没有前者，模型无法识别正确的形式对象；没有后者，它难以解释现实世界的上下文并将其精确映射为形式表达式。为了弥补这些差距，我们引入了 ThinkingF，一个数据合成和训练管道，可以同时提高这两种能力。首先，我们构建了两个数据集：一个通过提炼和选择富含形式知识的大规模示例，另一个通过专家设计的模板生成非形式到形式的推理轨迹。然后，我们使用这些数据集应用 SFT 和 RLVR，以进一步融合和完善这两种能力。最终的 7B 和 32B 模型展示了全面的形式知识和强大的非形式到形式推理能力。值得注意的是，StepFun-Formalizer-32B 在 FormalMATH-Lite 上取得了 40.5% 的 SOTA BEq@1 分数，在 ProverBench 上取得了 26.7% 的 SOTA BEq@1 分数，超越了所有之前的通用和专用模型。

Yutong Wu

论文作者

论文提交者

模型、数据集和评估代码将很快发布。敬请期待。

StepFun-Formalizer：通过知识-推理融合释放LLM的自动形式化潜力

摘要

评论