TAGS:一个具有检索增强推理和验证的测试时通用-专家框架

发表
JianghaoJianghao 提交
作者: JianghaoJianghao Wu, tangfeilongFeilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran RazzakImran Razzak

摘要

近期进展,例如思维链提示,显著提升了大型语言模型 (LLMs) 在零样本医学推理方面的能力。然而,基于提示的方法通常显得浅层且不稳定,而微调的医学 LLMs 在分布变化下泛化能力较差,对未见过的临床场景适应性有限。为了解决这些局限性,我们提出了 TAGS,这是一个测试时框架,它结合了能力广泛的通用模型和领域特定的专家模型,提供互补的视角,且无需进行任何模型微调或参数更新。为了支持这种通用-专家推理过程,我们引入了两个辅助模块:一个分层检索机制,它通过基于语义和推理过程相似性来选择示例,提供多尺度示例;以及一个可靠性评分器,它评估推理一致性以指导最终答案的聚合。TAGS 在九个 MedQA 基准测试中取得了优异的性能,将 GPT-4o 的准确率提高了 13.8%,将 DeepSeek-R1 提高了 16.8%,并将一个原版 7B 模型的准确率从 14.1% 提升到 23.9%。这些结果超越了一些微调的医学 LLMs,且没有进行任何参数更新。代码将可在 https://github.com/JianghaoWu/TAGS 获取。
查看 arXiv 页面查看 PDF

评论

JianghaoJianghao
论文作者
论文提交者

TAGS 引入了一个参数高效的测试时框架,用于鲁棒的医学问答。通过结合通才-专家的推理协作、分层检索和不确定性感知验证,TAGS 无需任何模型微调即可实现结构化的多智能体推理。该框架在分布偏移下表现出强大的泛化能力,在九个具有挑战性的 MedQA 基准测试中取得了显著的性能提升。值得注意的是,TAGS 将 GPT-4o 和 DeepSeek-R1 的零样本准确率分别提高了 13.8% 和 16.8%,优于多个领域特定的微调模型。