Thyme:超越图像的思考

发表
Yi-Fan ZhangYi-Fan Zhang 提交
作者: Yi-Fan ZhangYi-Fan Zhang, xingyuluXingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou

摘要

继OpenAI提出“图像思考”概念之后,最近的努力探索了刺激在推理过程中使用视觉信息,以增强模型在感知和推理任务中的性能。然而,据我们所知,目前还没有开源工作提供像专有模型(O3)那样丰富的功能集,该功能集可以执行各种图像操作,并通过代码同时增强逻辑推理能力。在本文中,我们通过引入Thyme(Think Beyond Images)在该方向进行了初步尝试,这是一种新颖的范式,旨在使多模态大型语言模型(MLLMs)通过自主生成和执行可执行代码的各种图像处理和计算操作,超越现有的“图像思考”方法。这种方法不仅促进了丰富的即时图像操作(例如,裁剪、旋转、对比度增强),还允许进行数学计算,同时在决定何时以及如何应用这些操作时保持高度自主性。我们通过两阶段训练策略激活了这项能力:首先对包含50万个样本的精选数据集进行初始SFT(监督微调)以教授代码生成,然后进入RL(强化学习)阶段以完善决策。在RL阶段,我们手动收集和设计高分辨率问答对以增加学习难度,并提出了GRPO-ATS(Group Relative Policy Optimization with Adaptive Temperature Sampling),这是一种对文本和代码生成应用不同温度的算法,以平衡推理探索与代码执行精度。我们进行了广泛的实验分析和消融研究。在近20个基准测试上的综合评估表明,Thyme产生了显著且一致的性能提升,特别是在具有挑战性的高分辨率感知和复杂推理任务中。
查看 arXiv 页面查看 PDF
Thyme:超越图像的思考

评论

Yi-Fan ZhangYi-Fan Zhang
论文作者
论文提交者

我们很高兴推出 Thyme:超越图像思考。Thyme 通过自主生成和执行多样化的图像处理和计算操作(通过可执行代码),超越了传统的“通过图像思考”范式,显著提高了高分辨率感知和复杂推理任务的性能。Thyme 利用一种新颖的两阶段训练策略,该策略将监督微调与强化学习相结合,并由创新的 GRPO-ATS 算法赋能,在推理探索和代码执行精度之间实现了精密的平衡。

Niels RoggeNiels Rogge

你好,谢谢你的工作。我认为在Hugging Face Spaces上创建一个demo会很棒,可以展示“通过图像思考”的能力,类似于OpenAI的o3。

另外,有什么理由不在评估结果中包含o3模型吗?我很想看看开源模型与o3的性能差距有多大。https://openai.com/index/thinking-with-images/

Kwai-KeyeKwai-Keye

这是一个很好的建议。由于官方的o3测试使用的基准测试相对较少,我们将在后续版本中进行统一测试。

Grant SingletonGrant Singleton

arXiv 解释了这篇论文的详细内容 👉 https://arxivexplained.com/papers/thyme-think-beyond-images