增强多模态大语言模型(MLLM)的逐步可验证医学推理能力

发表
manglumanglu 提交
作者: mangluHaoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang

摘要

多模态大语言模型(MLLMs)已开始在通用任务上展示出强大的推理能力,但它们在医疗领域的应用仍处于早期阶段。构建思维链(CoT)训练数据对于增强医疗MLLM的推理能力至关重要。然而,现有方法在提供一个全面的框架来搜索和评估通往关键诊断的有效推理路径方面存在不足。为了应对这一挑战,我们提出了导师-实习生协作搜索(MICS),这是一种新颖的推理路径搜索方案,用于生成严谨有效的医疗CoT数据。MICS首先利用导师模型一步一步地初始化推理,然后促使每个实习生模型沿着这些已启动的路径继续思考,最后根据多个实习生模型的整体推理表现选择最佳推理路径。推理表现由MICS-Score决定,该分数评估生成的推理路径的质量。最终,我们构建了MMRP,一个具有难度分级的多任务医疗推理数据集,以及Chiron-o1,一个通过课程学习策略设计的新型医疗MLLM,它具备强大的视觉问答和可泛化推理能力。大量实验表明,Chiron-o1在利用MICS构建的CoT数据集上进行训练后,在多项医疗视觉问答和推理基准测试中达到了最先进的性能。代码可在GitHub获取:GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
查看 arXiv 页面查看 PDF

评论

manglumanglu
论文作者
论文提交者
此评论已隐藏。
manglumanglu
论文作者
论文提交者

MICS:一种新颖的推理路径搜索方法,用于生成高质量、可验证的医学思维链数据。作者基于 MICS 训练了一个医学多模态大型语言模型 Chiron-o1,并结合了一种新颖的课程学习策略。实验表明,Chiron-o1 在多个医学视觉问答和推理基准上取得了 SOTA 性能。代码刚刚开源! GitHub:https://github.com/manglu097/Chiron-o1 😊:https://huggingface.co/manglu3935/Chiron-o1-8B