GEMeX-ThinkVG:通过强化学习在医学视觉问答中实现视觉接地思考

发表
Kelvin LiuKelvin Liu 提交
作者: Kelvin LiuBo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu

摘要

医疗视觉问答旨在通过使模型能够基于医学图像回答自然语言问题来支持临床决策。尽管多模态学习的最新进展显著提高了性能,但当前方法仍然存在答案可靠性有限和可解释性差的问题,这损害了临床医生和患者理解和信任模型生成答案的能力。为解决此问题,本研究首先提出了一个“带视觉基础的思考”(ThinkVG)数据集,其中答案生成被分解为中间推理步骤,明确地将相关视觉区域与医学图像关联起来,从而提供了细粒度的可解释性。此外,我们引入了一种新颖的可验证奖励机制,用于强化学习以指导后训练,从而改善模型推理过程与其最终答案之间的一致性。值得注意的是,我们的方法仅使用八分之一的训练数据就取得了可比的性能,证明了该提议的效率和有效性。该数据集可在以下地址获取:https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG
查看 arXiv 页面查看 PDF

评论

Kelvin LiuKelvin Liu
论文作者
论文提交者

医疗视觉问答旨在通过使模型能够根据医学图像回答自然语言问题来支持临床决策。尽管多模态学习的最新进展显著提高了性能,但当前方法仍存在答案可靠性有限和可解释性差的问题,这损害了临床医生和患者理解和信任模型生成答案的能力。为解决此问题,本工作首先提出了一个名为“带有视觉基础的思考”(ThinkVG)的数据集,其中答案生成被分解为中间推理步骤,这些步骤明确地将医学图像的相关视觉区域进行基础化,从而提供细粒度的可解释性。此外,我们引入了一种新颖的可验证奖励机制,用于强化学习以指导后训练,从而改善模型推理过程与其最终答案之间的一致性。值得注意的是,我们的方法仅使用八分之一的训练数据就达到了可比较的性能,这证明了该提案的效率和有效性。该数据集可在 https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG 获取。