IVY-FAKE:一个用于图像和视频 AIGC 检测的统一可解释框架和基准

发表
Changjiang JiangChangjiang Jiang 提交
作者: Wayne Zhang, Changjiang JiangChangjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng

摘要

人工智能生成内容(AIGC)在视觉领域的快速发展,在扩散等先进生成框架的推动下,产生了高度逼真的合成图像和视频。尽管这些突破带来了巨大的机遇,但它们同时引发了对内容真实性和完整性的严重担忧。许多当前的AIGC检测方法作为黑盒二元分类器运行,解释性有限,并且没有一种方法支持在统一框架中同时检测图像和视频。这种双重限制损害了模型透明度,降低了可信度,并阻碍了实际部署。为了应对这些挑战,我们引入了IVY-FAKE,这是一个新颖的、统一的、大规模数据集,专为可解释的多模态AIGC检测而设计。与以往基准测试碎片化的模态覆盖和稀疏的注释不同,IVY-FAKE包含超过150,000个丰富注释的训练样本(图像和视频)和18,700个评估样本,每个样本都附有超越简单二元标签的详细自然语言推理。在此基础上,我们提出了Ivy Explainable Detector(IVY-XDETECTOR),一个统一的AIGC检测和可解释架构,可同时对图像和视频内容进行可解释检测。我们统一的视觉-语言模型在多个图像和视频检测基准上实现了最先进的性能,突显了我们的数据集和建模框架所带来的重大进展。我们的数据已在 https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake 公开可用。
查看 arXiv 页面查看 PDF
IVY-FAKE:一个用于图像和视频 AIGC 检测的统一可解释框架和基准
IVY-FAKE:一个用于图像和视频 AIGC 检测的统一可解释框架和基准
IVY-FAKE:一个用于图像和视频 AIGC 检测的统一可解释框架和基准
IVY-FAKE:一个用于图像和视频 AIGC 检测的统一可解释框架和基准

评论

Changjiang JiangChangjiang Jiang
论文作者
论文提交者

项目页面:https://pi3ai.github.io/IvyFake

🚀 本论文引入了 IVY-FAKE,这是一个开创性的框架,旨在应对检测复杂AI生成图像和视频这一日益增长的挑战。当前的检测方法通常表现为“黑箱”,并且难以无缝处理图像和视频。IVY-FAKE 提供了一个统一且可解释的基准!

😆 主要亮点:

  1. 统一多模态数据集 (IVY-FAKE):这是首个专为跨图像和视频的可解释AIGC检测而设计的大规模基准。它拥有超过150,000个丰富标注的训练样本和18,700个评估样本,超越了简单的“真实/伪造”标签,包含了详细的自然语言推理。这解决了以往数据集中模态覆盖碎片化和标注稀疏的问题。

  2. 可解释检测器 (IVY-XDETECTOR):一种新颖的视觉-语言架构,可对图像和视频内容进行联合检测和解释。与仅输出坐标或热力图的模型不同,IVY-XDETECTOR 提供人类可读的、关于视觉伪影的自然语言描述。

  3. 解决“黑箱”限制:许多现有的AIGC检测器是二元分类器,可解释性有限,阻碍了透明度和信任。IVY-FAKE和IVY-XDETECTOR旨在克服这一问题。

  4. 丰富的标注和渐进式训练:该数据集包含详细的推理信息,从而能够对模型的解释性和可解释能力进行更细致的评估。标注是使用 Gemini 2.5 Pro 生成的,采用结构化方法,先阐明推理过程再得出结论;IVY-XDETECTOR 采用三阶段训练流程:1) 通用视频理解,2) 用于二元分类的 AIGC 检测微调,以及 3) 检测和可解释性的联合优化。

这项工作是迈向更透明、更值得信赖的AI内容分析的重要一步,为未来在多模态AIGC检测领域的研究奠定了坚实的基础。

DuDu

太棒了!!