⏶6
VAU-R1:通过强化微调提升视频异常理解
发表
由
Xiaodong Cun 提交

作者: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
摘要
视频异常理解(VAU)对于智慧城市、安防监控和灾害预警系统等应用至关重要,但由于其对细粒度时空感知和模糊条件下的鲁棒推理能力的要求,仍具有挑战性。尽管异常检测取得了进展,但现有方法通常缺乏可解释性,并且难以捕捉异常事件的因果和上下文方面。此外,缺乏评估异常情境下推理能力的综合基准,进一步加剧了这一局限性。为了解决这两个挑战,我们引入了 VAU-R1,一个基于多模态大型语言模型(MLLM)构建的数据高效框架,它通过强化微调(RFT)增强了异常推理能力。此外,我们提出了 VAU-Bench,这是第一个为视频异常推理量身定制的思维链基准,其特点是包含多项选择问答、详细的推理过程、时间注释和描述性字幕。实验结果表明,VAU-R1 在不同背景下显著提高了问答准确性、时间定位和推理连贯性。我们的方法和基准共同为可解释和推理感知的视频异常理解奠定了坚实的基础。我们的代码可在 https://github.com/GVCLab/VAU-R1 获取。
RFT 用于视频异常理解