GLM-4.1V-Thinking: 迈向通用多模态推理,借助可扩展强化学习

发表
Wenyi HongWenyi Hong 提交
作者: Wenyi HongWenyi Hong, Wenmeng YuWenmeng Yu, XGXiaotao Gu, Guo Wang, GuobingGanGuobing Gan, Haomiao TangHaomiao Tang, Jiale ChengJiale Cheng, Ji QiJi Qi, Junhui JiJunhui Ji, kinnplhLihang Pan, ShuaiqiDuanShuaiqi Duan, 王维汉Weihan Wang, YanYan Wang, Yean ChengYean Cheng, Zehai HeZehai He, Zhe Su, ZhenYang21Zhen Yang, Ziyang PanZiyang Pan, Zeng AohanAohan Zeng, wangbaoxuBaoxu Wang, Boyan ShiBoyan Shi, PcyChangyu Pang, Chenhui ZhangChenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng XuJiazheng Xu, Gary ChenJiali Chen, Jing Chen, Jinhao ChenJinhao Chen, linlincodeJinghao Lin, Jinjiang WangJinjiang Wang, Chen JunjieJunjie Chen, LEI Le-qiLeqi Lei, Leyi Pan, Mingzhi Zhang, Qinkai ZhengQinkai Zheng, Sheng YangSheng Yang, Shi Zhong, Shiyu HuangShiyu Huang, ZhaoShuyuanShuyuan Zhao, Sean XueSiyan Xue, Shangqing TuShangqin Tu, mengshengbiaoShengbiao Meng, Tianshu ZhangTianshu Zhang, 罗天蔚Tianwei Luo, Tianxiang HaoTianxiang Hao, Tianle Gong, liwenkaiWenkai Li, Wei JiaWei Jia, Xin LvXin Lyu, Huang XuanchengXuancheng Huang, Yanling WangYanling Wang, Xue YadongYadong Xue, Yanfeng WangYanfeng Wang, A1phaNYifan An, Evan DuYifan Du, Yiming ShiYiming Shi, yiheng huangYiheng Huang, Yilin Niu, Yuan WangYuan Wang, Yuanchang YueYuanchang Yue, Yuchen LiYuchen Li, zytYutao Zhang, zRYuxuan Zhang, Zhengxiao DuZhanxiao Du, Zhenyu HouZhenyu Hou, xuezhaoZhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

摘要

我们推出了 GLM-4.1V-Thinking,这是一个旨在推进通用多模态推理的视觉语言模型(VLM)。在本报告中,我们分享了在开发以推理为中心的训练框架方面的关键发现。我们首先通过大规模预训练开发了一个具有巨大潜力的视觉基础模型,这可以说为最终性能设定了上限。随后,课程采样强化学习(RLCS)释放了模型的全部潜力,实现了在包括 STEM 问题解决、视频理解、内容识别、编码、接地、基于 GUI 的智能体和长文档理解等各种任务上的全面能力增强。为了促进该领域的研究,我们开源了 GLM-4.1V-9B-Thinking,它在同等大小的模型中取得了最先进的性能。在对 28 个公共基准进行的综合评估中,我们的模型在几乎所有任务上都优于 Qwen2.5-VL-7B,并且在 18 个基准上与尺寸大得多的 Qwen2.5-VL-72B 相比,取得了相当甚至更优的性能。值得注意的是,GLM-4.1V-9B-Thinking 在长文档理解和 STEM 推理等挑战性任务上也表现出与 GPT-4o 等闭源模型相比具有竞争力或更优的性能,进一步凸显了其强大的能力。代码、模型和更多信息已发布在 https://github.com/THUDM/GLM-4.1V-Thinking
查看 arXiv 页面查看 PDF
GLM-4.1V-Thinking: 迈向通用多模态推理,借助可扩展强化学习

评论

Wenyi HongWenyi Hong
论文作者
论文提交者

我们推出GLM-4.1V-Thinking,这是一个旨在推进通用多模态推理的视觉语言模型(VLM)。在本报告中,我们将分享在开发以推理为中心的训练框架方面的关键发现。

在对28个公共基准进行全面评估中,我们的模型在几乎所有任务上都超越了Qwen2.5-VL-7B,并且在18个基准上相对于大得多的Qwen2.5-VL-72B实现了可比甚至更优的性能。值得注意的是,GLM-4.1V-9B-Thinking在包括长文档理解和STEM推理等挑战性任务上,与GPT-4o等闭源模型相比,也展现出具有竞争力甚至更优的性能,进一步凸显了其强大的能力。

为了促进该领域的研究,我们开源了GLM-4.1V-9B-Thinking,该模型在同等规模的模型中达到了最先进的性能。代码、模型和更多信息已在 https://github.com/THUDM/GLM-4.1V-Thinking 发布。

Adina YakefuAdina Yakefu

超级酷炫 🔥 恭喜发布!