ReasonMed: 一个37万多智能体生成数据集,助力医学推理

发表
Yu SunYu Sun 提交
作者: Yu SunYu Sun, Xingyu Qian, Xu WeiwenWeiwen Xu, ZHANG HAOHao Zhang, Chenghao Xiao, Long Li, Yu RongYu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu

摘要

尽管基于推理的大型语言模型(LLM)在数学和编程方面表现出色,但其在知识密集型医疗问答方面的能力仍未得到充分探索。为了解决这一问题,我们推出了 ReasonMed,这是迄今为止最大的医疗推理数据集,包含 37 万个高质量示例,这些示例是从各种 LLM 生成的 170 万个初始推理路径中提取的。ReasonMed 通过多智能体验证和优化过程构建,我们设计了一个错误修正器(Error Refiner),通过识别和纠正验证器标记的易错步骤来增强推理路径。利用 ReasonMed,我们系统地研究了训练医疗推理模型的最佳实践,发现将详细的思维链(CoT)推理与简洁的答案摘要相结合,能产生最有效的微调策略。基于这一策略,我们训练了 ReasonMed-7B,它为 10B 以下的模型设定了新的基准,超越了此前的最佳模型 4.17%,甚至在 PubMedQA 上比 LLaMA3.1-70B 高出 4.60%。
查看 arXiv 页面查看 PDF

评论

Yu SunYu Sun
论文作者
论文提交者

欢迎关注我们的最新成果——ReasonMed!我们致力于解决医疗领域中知识密集型推理的挑战。为此,我们构建了业内最大的开源医疗推理数据集,并开发了在同等参数规模下超越竞争对手的领先(SOTA)模型。

💪 ReasonMed 有何突出之处?

⚕️ 规模最大、质量最高的医疗推理数据集!

我们构建并开源了前所未有的 ReasonMed 数据集,其中包含 37 万条经过严格验证的高质量推理路径。这一突破不仅在规模上树立了新标杆,还赋予了大型语言模型(LLMs)强大而可靠的医疗逻辑推理能力。

🧠 创新的多智能体框架确保卓越!

为解决模型间知识领域差异问题,我们开创性地提出了多智能体数据生成框架。该系统智能协调不同的"专家模型",并根据任务复杂性动态调整推理策略。最终生成的数据集在直接质量比较中超越了 GPT-4o 和 DeepSeek-R1 等顶级模型的输出!

🔬 首次对医学领域"推理"进行系统性验证!

尽管推理能力在数学和编码领域表现出色,但其在知识密集的医疗场景中的价值仍未得到充分探索。我们首次使用统一的数据源,系统评估了显式医疗推理的实际益处,为"LLMs 如何在医学领域进行更深入思考"提供了重要的实证见解。

🔥 小模型,大影响!

我们的 ReasonMed-7B 模型在 ReasonMed 数据集上进行训练,在小于 100 亿参数的模型公开基准测试中取得了领先(SOTA)性能,超越了许多更大的模型。它展现了卓越的计算效率和准确性!

我们相信这项工作为推动医疗AI奠定了坚实的数据和方法论基础。

Yu SunYu Sun
论文作者
论文提交者

⚠️ 请注意,数据集网址已更新。我们将在下次 arXiv 发布时更正该链接。