不确定性加权的图像-事件多模态融合用于视频异常检测

发表
Evan JeongEvan Jeong 提交
作者: Evan JeongSungheon Jeong, Jihong ParkJihong Park, Mohsen Imani

摘要

大多数现有的视频异常检测器仅依赖于RGB帧,而RGB帧缺乏捕捉突变或瞬时运动线索(异常事件的关键指标)所需的时间分辨率。为了解决这一限制,我们提出了用于视频异常检测的图像-事件融合框架(IEF-VAD),该框架直接从RGB视频中合成事件表示,并通过一种有原则的、考虑不确定性的过程将其与图像特征融合。该系统 (i) 使用Student`s-t似然模型对重尾传感器噪声进行建模,通过拉普拉斯近似推导值级逆方差权重;(ii) 应用类似卡尔曼滤波的逐帧更新以随时间平衡不同模态;和 (iii) 迭代地细化融合后的潜在状态以消除残余的跨模态噪声。在没有任何专门的事件传感器或帧级标签的情况下,IEF-VAD 在多个真实世界异常检测基准上达到了新的最先进水平。这些发现突显了合成事件表示在强调运动线索方面的效用,这些运动线索在RGB帧中往往表现不足,从而在各种应用中实现准确、鲁棒的视频理解,而无需专门的事件传感器。代码和模型可在 https://github.com/EavnJeong/IEF-VAD 获取。
查看 arXiv 页面查看 PDF

评论

Evan JeongEvan Jeong
论文作者
论文提交者

本文提出 IEF-VAD:一个新颖的、用于视频异常检测的不确定性感知的融合框架,它利用图像和合成事件模态。该框架结合了拉普拉斯近似的Student-t建模、卡尔曼风格的更新和潜在表示细化,无需事件传感器或密集标签即可实现最先进的性能。

模型和数据集可在 Hugging Face Hub 上获取:
- GitHub: https://github.com/EavnJeong/IEF-VAD
- Checkpoints: https://huggingface.co/Eavn/IEF-VAD/tree/main
- Extracted Data: https://huggingface.co/datasets/Eavn/ief-vad-dataset/tree/main
https://drive.google.com/drive/folders/11b6tiAa8Lsbd9hvO1F1U9oEdWOGja89H