⏶5
通过对偶自我一致性强化学习进行科学图形程序合成
发表
由
taesiri 提交
作者: Juekai Lin, Yun Zhu, Honglin Lin, Sijing Li, Tianwei Lin, Zheng Liu, Xiaoyang Wang, Wenqiao Zhang, Lijun Wu
摘要
AI 生成总结
一个用于图形程序合成的闭环框架,将大规模数据集和基准测试与一种新型强化学习优化方法相结合,以提高从图像生成可执行 TikZ 代码的能力。图形程序合成对于解析和编辑视觉数据至关重要,它能有效促进将静态图像逆向工程为可编辑的 TikZ 代码。虽然 TikZ 因其编程灵活性而成为科学图表的行业标准,但它对严苛空间精度的要求对多模态大语言模型构成了重大挑战。目前的进展受阻于两个主要差距:(1) 数据质量差距:现有的图像-TikZ 语料库往往缺乏严格的可执行性和可靠的视觉对齐;(2) 评估差距:缺乏针对结构和视觉保真度的基准。为了解决这些问题,我们提出了一个闭环框架,其特色包括:SciTikZ-230K,一个源自我们“以执行为中心的数据引擎”的大规模、高质量数据集,涵盖 11 个不同的科学学科;SciTikZ-Bench,一个多维度的基准,从基础几何结构到复杂的层次图表,用于评估视觉保真度和结构逻辑。为了进一步拓宽视觉代码优化方法的范围,我们引入了一种新型的“双重自一致性强化学习”优化范式,它利用“往返验证”来惩罚退化代码并提升整体自一致性。在这些技术的支持下,我们训练的模型 SciTikZer-8B 取得了最先进的性能,始终优于 Gemini-2.5-Pro 等专有巨头以及 Qwen3-VL-235B-A22B-Instruct 等超大规模模型。