TrustGeoGen:可扩展且形式化验证的数据引擎,用于可信的多模态几何问题求解

发表
Renqiu XiaRenqiu Xia 提交
作者: Daocheng Fu, Zijun Chen, Renqiu XiaRenqiu Xia, Qi Liu, Yuan Feng, zhouhongbinHongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi YanJunchi Yan, Botian ShiBotian Shi, Bo ZhangBo Zhang, Yu Qiao

摘要

数学几何问题求解(GPS)通常需要有效整合多模态信息和可验证的逻辑连贯性。尽管大型语言模型在通用问题求解方面发展迅速,但在方法论和基准测试方面仍未解决,特别是考虑到现有合成GPS基准测试通常缺乏自我验证,并因LLMs的幻觉而包含噪声和自相矛盾的信息。在本文中,我们提出了一种名为TrustGeoGen的可扩展数据生成引擎,用于问题生成,通过形式化验证提供原则性的基准测试,我们相信这为进一步开发GPS方法奠定了基础。该引擎通过四项关键创新合成几何数据:1)多模态对齐的图表、文本描述和分步解决方案生成;2)确保符合规则推理路径的形式化验证;3)通过递归状态生成实现复杂性升级的自举机制;4)我们设计的GeoExplore系列算法同时生成多解决方案变体和自我反思的回溯轨迹。通过形式化逻辑验证,TrustGeoGen生成了GeoTrust-200K数据集,保证了模态完整性,并附带了GeoTrust-test测试集。实验表明,最先进的模型在GeoTrust-test上的准确率仅为49.17\%,证明了其评估的严格性。至关重要的是,在GeoTrust上训练的模型在GeoQA上实现了OOD泛化,相对于OpenAI-o1标注的伪标签,显著减少了逻辑不一致性。我们的代码可在https://github.com/Alpha-Innovator/TrustGeoGen获取。
查看 arXiv 页面查看 PDF

评论

Renqiu XiaRenqiu Xia
论文作者
论文提交者

数学几何问题求解(GPS)通常需要有效整合多模态信息和可验证的逻辑连贯性。尽管大语言模型在通用问题求解方面发展迅速,但在方法论和基准测试方面仍未解决,特别是考虑到现有的合成 GPS 基准测试通常由于 LLM 的幻觉而缺乏自验证,并包含噪声和自相矛盾的信息。在本文中,我们提出了一种可扩展的数据引擎 TrustGeoGen 用于问题生成,并通过形式化验证提供了一个原则性基准,我们认为这为 GPS 方法的进一步发展奠定了基础。该引擎通过四项关键创新合成几何数据:1) 多模态对齐的图表、文本描述和分步解决方案生成;2) 确保符合规则的推理路径的形式化验证;3) 通过递归状态生成实现复杂性升级的自举机制;以及 4) 我们设计的 GeoExplore 系列算法,同时产生多解变体和自反射回溯轨迹。通过形式逻辑验证,TrustGeoGen 生成了 GeoTrust-200K 数据集,保证了模态完整性,同时还有 GeoTrust-test 测试集。实验表明,最先进的模型在 GeoTrust-test 上的准确率仅为 49.17\%,表明其评估的严格性。关键的是,在 GeoTrust 上训练的模型在 GeoQA 上实现了 OOD 泛化,相对于 OpenAI-o1 伪标签标注的结果,显著减少了逻辑不一致性。