⏶9
迈向指代性音视频分割中的全模态表达与推理
发表
由
Henghui Ding 提交

作者: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
摘要
指代性视听分割(RAVS)最近取得了显著进展,但在整合多模态信息以及深度理解和推理视听内容方面仍然存在挑战。为了扩展RAVS的边界并促进该领域的未来研究,我们提出了全模态指代性视听分割(OmniAVS),这是一个包含2098个视频和59458个多模态指代表达的新数据集。OmniAVS具有三项关键创新:(1) 8种多模态表达方式,灵活地结合了文本、语音、声音和视觉线索;(2) 强调对音频内容的理解,而不仅仅是检测其存在;(3) 在表达中包含了复杂的推理和世界知识。此外,我们引入了全模态指令分割助手(OISA),以应对OmniAVS中多模态推理和视听内容细粒度理解的挑战。OISA利用多模态大型语言模型(MLLM)来理解复杂的线索并执行基于推理的分割。大量实验表明,OISA在OmniAVS数据集上超越了现有方法,并在其他相关任务上取得了有竞争力的结果。
OmniAVS:一种用于全模态指代视听分割的数据集和方法。