⏶20
AV-Reasoner:改进和基准测试 MLLM 的线索导向音视频计数
发表
由
lulidong 提交
作者:
Lidong Lu,
Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu
摘要
尽管视频理解取得了进展,但当前的 MLLM 在计数任务上仍面临挑战。现有基准受限于短视频、封闭式查询、缺乏线索标注以及多模态覆盖不足。本文引入了 CG-AV-Counting,一个手动标注的、基于线索的计数基准,包含 1,027 个多模态问题和 5,845 个标注线索,覆盖 497 个长视频。它支持黑盒和白盒评估,为端到端和基于推理的计数提供了一个全面的测试平台。为了探索提高模型计数能力的方法,我们提出了 AV-Reasoner,一个通过 GRPO 和课程学习训练的模型,旨在从相关任务中泛化计数能力。AV-Reasoner 在多个基准上取得了最先进的结果,证明了强化学习的有效性。然而,实验表明,在域外基准上,语言空间中的推理未能带来性能提升。代码和基准已在 https://av-reasoner.github.io 发布。
基准测试:https://huggingface.co/datasets/CG-Bench/CG-AV-Counting
Hugging Face 模型:https://huggingface.co/lulidong/AV-Reasoner-7B
GitHub(包含评估代码):https://github.com/AV-Reasoner/AV-Reasoner