⏶26
MedGen:通过扩展细粒度标注的医学视频来解锁医学视频生成
发表
由
wangrongsheng 提交

作者:
Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang

摘要
尽管视频生成领域的最新进展在开放领域设置中取得了显著突破,但医疗视频生成在很大程度上仍未被充分探索。医疗视频对于临床培训、教育和模拟等应用至关重要,它不仅需要高视觉保真度,还需要严格的医学准确性。然而,当前模型在应用于医疗提示时,常常会产生不真实或错误的内容,这很大程度上是由于缺乏针对医疗领域量身定制的大规模、高质量数据集。为了弥补这一空白,我们引入了MedVideoCap-55K,这是第一个用于医疗视频生成的大规模、多样化且标注丰富的指令数据集。它包含超过55,000个精选片段,涵盖真实世界的医疗场景,为训练通用医疗视频生成模型提供了坚实的基础。基于此数据集,我们开发了MedGen,该模型在视觉质量和医学准确性方面,在多个基准测试中,达到了开源模型中的领先性能,并可与商业系统媲美。我们希望我们的数据集和模型能够成为宝贵的资源,并有助于促进医疗视频生成领域的进一步研究。我们的代码和数据可在https://github.com/FreedomIntelligence/MedGen获取。
链接:
GitHub: https://github.com/FreedomIntelligence/MedGen
论文: https://arxiv.org/abs/2507.05675
数据集: https://huggingface.co/datasets/FreedomIntelligence/MedVideoCap-55K
博客: https://huggingface.co/blog/wangrongsheng/medvideocap-55k