⏶5
TrustGeoGen:可扩展且形式化验证的数据引擎,用于可信的多模态几何问题求解
发表
由
Renqiu Xia 提交

作者: Daocheng Fu, Zijun Chen,
Renqiu Xia, Qi Liu, Yuan Feng,
Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao,
Junchi Yan,
Botian Shi,
Bo Zhang, Yu Qiao

摘要
数学几何问题求解(GPS)通常需要有效整合多模态信息和可验证的逻辑连贯性。尽管大型语言模型在通用问题求解方面发展迅速,但在方法论和基准测试方面仍未解决,特别是考虑到现有合成GPS基准测试通常缺乏自我验证,并因LLMs的幻觉而包含噪声和自相矛盾的信息。在本文中,我们提出了一种名为TrustGeoGen的可扩展数据生成引擎,用于问题生成,通过形式化验证提供原则性的基准测试,我们相信这为进一步开发GPS方法奠定了基础。该引擎通过四项关键创新合成几何数据:1)多模态对齐的图表、文本描述和分步解决方案生成;2)确保符合规则推理路径的形式化验证;3)通过递归状态生成实现复杂性升级的自举机制;4)我们设计的GeoExplore系列算法同时生成多解决方案变体和自我反思的回溯轨迹。通过形式化逻辑验证,TrustGeoGen生成了GeoTrust-200K数据集,保证了模态完整性,并附带了GeoTrust-test测试集。实验表明,最先进的模型在GeoTrust-test上的准确率仅为49.17\%,证明了其评估的严格性。至关重要的是,在GeoTrust上训练的模型在GeoQA上实现了OOD泛化,相对于OpenAI-o1标注的伪标签,显著减少了逻辑不一致性。我们的代码可在https://github.com/Alpha-Innovator/TrustGeoGen获取。
数学几何问题求解(GPS)通常需要有效整合多模态信息和可验证的逻辑连贯性。尽管大语言模型在通用问题求解方面发展迅速,但在方法论和基准测试方面仍未解决,特别是考虑到现有的合成 GPS 基准测试通常由于 LLM 的幻觉而缺乏自验证,并包含噪声和自相矛盾的信息。在本文中,我们提出了一种可扩展的数据引擎 TrustGeoGen 用于问题生成,并通过形式化验证提供了一个原则性基准,我们认为这为 GPS 方法的进一步发展奠定了基础。该引擎通过四项关键创新合成几何数据:1) 多模态对齐的图表、文本描述和分步解决方案生成;2) 确保符合规则的推理路径的形式化验证;3) 通过递归状态生成实现复杂性升级的自举机制;以及 4) 我们设计的 GeoExplore 系列算法,同时产生多解变体和自反射回溯轨迹。通过形式逻辑验证,TrustGeoGen 生成了 GeoTrust-200K 数据集,保证了模态完整性,同时还有 GeoTrust-test 测试集。实验表明,最先进的模型在 GeoTrust-test 上的准确率仅为 49.17\%,表明其评估的严格性。关键的是,在 GeoTrust 上训练的模型在 GeoQA 上实现了 OOD 泛化,相对于 OpenAI-o1 伪标签标注的结果,显著减少了逻辑不一致性。