通过多模态大语言模型(MLLMs)中的基于事实推理,实现对AI生成图像的可解释且可靠检测

发表
Qi FanQi Fan 提交
作者: Yikun Ji, Hong Yan, Jun Lan, Huijia Zhu, Weiqiang Wang, Qi FanQi Fan, Liqing Zhang, Jianfu Zhang

摘要

图像生成技术的飞速发展加剧了对可解释且鲁棒的检测方法的需求。尽管现有方法通常能达到高准确性,但它们通常作为黑箱运行,无法提供人类可理解的解释。多模态大语言模型(MLLMs)虽然最初并非用于伪造检测,但它们展现出强大的分析和推理能力。经过适当微调后,它们能够有效识别AI生成图像并提供有意义的解释。然而,现有的MLLMs仍存在幻觉问题,并且其视觉解释往往未能与实际图像内容和人类推理对齐。为了弥补这一差距,我们构建了一个AI生成图像数据集,其中包含标注了边界框和描述性说明的图像,这些说明突出了合成伪影,从而为人机对齐的视觉-文本基础推理奠定了基础。随后,我们通过多阶段优化策略对MLLMs进行微调,该策略逐步平衡了准确检测、视觉定位和连贯文本解释的目标。最终的模型在检测AI生成图像和定位视觉缺陷方面都取得了卓越的性能,显著优于基线方法。
查看 arXiv 页面查看 PDF

评论

Qi FanQi Fan
论文作者
论文提交者

🤔 视觉语言模型可以基于视觉基础信息进行思考!

📉 在AIGI质量飞速发展的当下,单纯的分类已不再足够。

🚀 视觉语言模型(特指Qwen-2.5-VL)在经过微调后,能够生成与人类对齐的推理,并带有边界框。

🆕 通过SFT+GRPO,我们提出了一种端到端的AIGI检测框架,该框架具备推理能力。

🔗 https://github.com/Gennadiyev/mllm-defake