⏶14
X-Reasoner:面向跨模态和领域的通用推理
发表
由
Sheng Zhang 提交
作者:
Qianchu Liu,
Sheng Zhang,
Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin,
Sid Kiblawi,
Sam Preston, Mu Wei,
Paul Vozila,
Tristan Naumann,
Hoifung Poon



摘要
最近的专有模型(例如 o3)已开始展现强大的多模态推理能力。然而,大多数现有开源研究专注于训练纯文本推理模型,评估仅限于主要是数学和通用领域任务。因此,尚不清楚如何有效扩展推理能力,使其超出文本输入和通用领域。本文探索了一个基本研究问题:推理能力是否可以跨模态和领域泛化?我们的研究结果支持肯定回答:通用领域基于文本的后训练可以实现如此强大的泛化推理能力。利用这一发现,我们引入了 X-Reasoner,这是一个仅在通用领域文本上进行后训练的视觉-语言模型,用于泛化推理,采用两阶段方法:初步的监督微调阶段使用蒸馏的长思维链,随后是基于可验证奖励的强化学习。实验表明,X-Reasoner 成功地将推理能力迁移到多模态和领域外设置,在各种通用和医学基准测试中(图 1),优于使用领域内和多模态数据训练的现有最先进模型。此外,我们发现 X-Reasoner 在专业领域的性能可以通过在领域特定的纯文本数据上继续训练而进一步提升。在此基础上,我们引入了 X-Reasoner-Med,这是一个医学专业变体,在众多纯文本和多模态医学基准测试上实现了新的最先进水平。
🧠 X-Reasoner —— 一个 7B 级别的视觉语言模型,为其推理功能进行的后期训练 纯粹基于通用领域文本进行,没有任何图像或领域特定数据。
X-Reasoner 在具有挑战性的多模态任务(例如,在 MMMU-Pro 上达到 43.0)以及医学基准测试(例如,在 NEJM Image Challenge 上达到 45.7)上达到了最先进水平 🏆。
🧵 大多数关于推理模型的开源工作都专注于文本输入和通用领域。但现实世界的推理通常涵盖多种模态(例如 视觉+文本)和专门领域(例如 医疗保健)。我们想问:
👉是否仅通过基于文本的后期训练,就能使推理能力泛化?
核心思想 → 两阶段方案:
🔹 在纯文本通用领域长链式思考 (CoT) 数据上进行 SFT
🔹 在纯文本数学问题上使用可验证奖励进行 RL
没有图像,没有领域特定数据——只有通用文本。
这一方案驱动了 X-Reasoner,一个 7B 级别的视觉语言模型。尽管仅在通用领域文本上进行了训练,它:
✅ 能够迁移到多模态任务(例如 MathVista, MMMU-Pro)
✅ 优于使用多模态监督进行训练的 7B 级别 SOTA 模型
✅ 在医学等未见过的领域表现出色
💡 为什么它能奏效
🔑 以数学为锚点——在数学上进行 RL 产生的推理链比单独使用领域特定 RL 具有更好的泛化能力。
🔑 强制退出标记可防止“无限思考”,提高可靠性。
消融实验 ☑️: 移除所有仅通过文本可解决的例子… 增益依然存在。模型确实是在阅读图像,而不是玩弄基准测试。
🩺然后我们添加了一些医学文本 → X-Reasoner-Med。不需要图像——只需要额外的 MedQA SFT + RL——我们就创造了 MedQA, OmniMedVQA, MMMU-Health, MedXpertQA-MM, 和 NEJM Image Challenge 上的新的 7B SOTA。
🔬 太长不看:
基于通用领域文本的推理能力比我们想象的更强大。
通过 X-Reasoner,我们表明,无需昂贵的多模态或领域特定监督,就可以训练出高质量的推理模型——并且仍然优于那些使用监督进行训练的模型。
📌 论文: https://arxiv.org/abs/2505.03981
🔗 模型: https://github.com/microsoft/x-reasoner (即将发布)
📊 基准测试: MMMU, MathVista, MedQA, NEJM, 等等
🤖 模型大小: 7B