⏶4
MedAgentGym:大规模训练用于基于代码的医学推理的 LLM 代理
发表
由
Wenqi Shi 提交

作者: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie,
Wenqi Shi

摘要
我们引入了 MedAgentGYM,这是第一个公开可用的训练环境,旨在增强大型语言模型 (LLM) 代理的基于代码的医疗推理能力。MedAgentGYM 包含 72,413 个任务实例,涵盖 129 个类别,这些实例均来自真实的生物医学场景。任务被封装在可执行的编码环境中,每个环境都包含详细的任务描述、交互式反馈机制、可验证的真实标注以及可扩展的训练轨迹生成。对 30 多个 LLM 进行的广泛基准测试揭示了商业 API 模型与开源模型之间显著的性能差异。利用 MedAgentGYM,Med-Copilot-7B 通过监督微调 (+36.44%) 和持续强化学习 (+42.47%) 实现了显著的性能提升,成为一种经济实惠且隐私保护的替代方案,与 gpt-4o 具有竞争力。通过在一个统一的执行环境中提供全面的基准和可访问、可扩展的训练资源,MedAgentGYM 提供了一个集成平台,用于开发基于 LLM 的编码助手,以促进高级生物医学研究和实践。
代码:https://github.com/wshi83/MedAgentGym
数据和模型:https://huggingface.co/MedAgentGym