StepFun-Formalizer:通过知识-推理融合释放LLM的自动形式化潜力

发表
Yutong WuYutong Wu 提交
作者: Yutong WuYutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui CaoChenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

摘要

自动形式化旨在将自然语言的数学陈述翻译成形式语言。虽然大型语言模型(LLMs)加速了这一领域的进展,但现有方法仍然存在准确性低的问题。我们确定了有效自动形式化的两个关键能力:全面掌握形式语言领域知识,以及自然语言问题理解和非形式到形式对齐的推理能力。没有前者,模型无法识别正确的形式对象;没有后者,模型难以解释现实世界语境并将其精确映射到形式表达式。为了解决这些不足,我们引入了 ThinkingF,一个数据合成和训练管道,可以提升这两种能力。首先,我们构建了两个数据集:一个通过提炼和选择富含形式知识的大规模示例,另一个通过生成由专家设计的模板指导的非形式到形式推理轨迹。然后,我们使用这些数据集应用 SFT 和 RLVR,以进一步融合和完善这两种能力。由此产生的 7B 和 32B 模型既展现出全面的形式知识,又具备强大的非形式到形式推理能力。值得注意的是,StepFun-Formalizer-32B 在 FormalMATH-Lite 上达到了 40.5% 的 SOTA BEq@1 分数,在 ProverBench 上达到了 26.7% 的 SOTA BEq@1 分数,超越了所有先前的通用和专用模型。
查看 arXiv 页面查看 PDF

评论

Yutong WuYutong Wu
论文作者
论文提交者

自动形式化旨在将自然语言数学语句翻译成形式语言。尽管大型语言模型加速了该领域的进展,但现有方法仍然存在准确性低的问题。我们确定了有效自动形式化的两项关键能力:对形式语言领域知识的全面掌握,以及自然语言问题理解和非形式-形式对齐的推理能力。没有前者,模型无法识别正确的形式对象;没有后者,它难以解释现实世界的上下文并将其精确映射为形式表达式。为了弥补这些差距,我们引入了 ThinkingF,一个数据合成和训练管道,可以同时提高这两种能力。首先,我们构建了两个数据集:一个通过提炼和选择富含形式知识的大规模示例,另一个通过专家设计的模板生成非形式到形式的推理轨迹。然后,我们使用这些数据集应用 SFT 和 RLVR,以进一步融合和完善这两种能力。最终的 7B 和 32B 模型展示了全面的形式知识和强大的非形式到形式推理能力。值得注意的是,StepFun-Formalizer-32B 在 FormalMATH-Lite 上取得了 40.5% 的 SOTA BEq@1 分数,在 ProverBench 上取得了 26.7% 的 SOTA BEq@1 分数,超越了所有之前的通用和专用模型。

Yutong WuYutong Wu
论文作者
论文提交者

模型、数据集和评估代码将很快发布。敬请期待。