⏶15
μ^2Tokenizer:用于放射报告生成的可微多尺度多模态标记器
发表
由
Siyou Li 提交

作者:
Siyou Li, Pengyao Qin, Huanan Wu, Dong Nie, Arun J. Thirunavukarasu, Juntao Yu,
Le Zhang

摘要
自动化放射学报告生成 (RRG) 旨在从临床影像(如计算机断层扫描 (CT) 扫描)生成详细的文本报告,以提高诊断的准确性和效率,并提供管理建议。RRG 受两个主要挑战的困扰:(1) 在资源约束下从影像数据中提取相关信息的内在复杂性,以及 (2) 客观评估模型生成报告和专家撰写报告之间差异的难度。为了应对这些挑战,我们提出了 mu^2LLM,一种textbf{多}尺度textbf{多}模态大型语言模型,用于 RRG 任务。 新颖的{mu}^2Tokenizer,作为一个中间层,集成了来自多尺度视觉 tokenizer 和文本 tokenizer 的多模态特征,然后通过直接偏好优化 (DPO) 增强报告生成质量,并由 GREEN-RedLlama 指导。 在四个大型 CT 图像报告医疗数据集上的实验结果表明,我们的方法优于现有方法,突出了我们微调的 mu^2LLM 在有限数据上用于 RRG 任务的潜力。
🚀 激动地宣布我们的论文“µ²Tokenizer: 用于放射学报告生成的可微多尺度多模态分词器”已被 MICCAI 2025 接收!🥳
简而言之,µ²Tokenizer 是一个轻量级中间件,可将 3D ViT 特征与语言模型融合,仅使用 10 亿参数即可提供最先进的放射学报告——仅为典型基线的 14%。主要优势:
• 📊 通过直接偏好优化,GREEN-Score 提升 20%,优于更大的模型
• 🧠 软性、可微的分词选择 → 更丰富的图像理解,而不会增加计算量
• ⚡ 动态多尺度池化,可动态适应每个 CT 扫描
• 🏆 在 AMOS-MM、CT-Rate 和 AbdomenAtlas 上进行了测试,始终优于 7B–14B LLM
重要意义:大规模自动化放射学报告可以解放临床医生,缩短报告时间,并改善患者的治疗效果,而无需庞大的模型或巨额预算。
🔗 论文: https://u2tokenizer.github.io/static/pdfs/%CE%BC2_Tokenizer.pdf
🌍 网站: https://u2tokenizer.github.io/
📦 Github: https://github.com/Siyou-Li/u2Tokenizer
🤝 始终欢迎在多模态 LLM 上的合作——请给我留言或标记可能感兴趣的人!