通过强化学习实现高效医学 VIE

发表
Zhaocheng LiuZhaocheng Liu 提交
作者: Lijun Liu, lryRuiyang Li, Zhaocheng LiuZhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, sdujqQiang Ju, Jian Xie

摘要

视觉信息提取(VIE)将非结构化文档图像转换为JSON等结构化格式,这对于报告分析和在线咨询等医疗应用至关重要。传统方法依赖于OCR和语言模型,而端到端多模态模型则提供直接的JSON生成。然而,领域特定模式和高昂的标注成本限制了它们在医疗VIE中的有效性。我们基于“基于可验证奖励的强化学习(RLVR)”框架来解决这些挑战,仅使用100个标注样本。我们的方法确保了数据集的多样性,采用平衡的精确率-召回率奖励机制来减少幻觉并提高字段覆盖率,并运用创新采样策略来增强推理能力。通过使用我们的RLVR方法微调Qwen2.5-VL-7B,我们在医疗VIE任务上取得了最先进的性能,显著提高了F1分数、精确率和召回率。尽管我们的模型在与医疗数据集相似的任务上表现出色,但在不相似的任务上性能有所下降,这突出表明了领域特定优化的必要性。案例研究进一步证明了推理在VIE训练和推理过程中的价值。
查看 arXiv 页面查看 PDF

评论

Zhaocheng LiuZhaocheng Liu
论文作者
论文提交者

视觉信息提取(VIE)将非结构化文档图像转换为JSON等结构化格式,这对于报告分析和在线咨询等医疗应用至关重要。传统方法依赖于光学字符识别(OCR)和语言模型,而端到端多模态模型则提供直接的JSON生成。然而,领域特定的模式和高昂的标注成本限制了它们在医疗VIE中的有效性。我们基于可验证奖励的强化学习(RLVR)框架来解决这些挑战,仅使用100个标注样本。我们的方法确保数据集多样性,采用平衡的精确率-召回率奖励机制以减少幻觉并提高字段覆盖率,以及创新的采样策略以增强推理能力。通过使用我们的RLVR方法微调Qwen2.5-VL-7B,我们在医疗VIE任务上实现了最先进的性能,显著提升了F1分数、精确率和召回率。尽管我们的模型在与医疗数据集相似的任务上表现出色,但在不相似的任务上性能有所下降,这突出表明了领域特定优化的必要性。案例研究进一步证明了在VIE的训练和推理过程中推理的价值。