⏶5
MovieCORE:电影中的认知推理
发表
由
Min-Hung Chen 提交

作者:
Gueter Josmy Faure,
Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu

摘要
本文介绍了 MovieCORE,这是一个新颖的视频问答 (VQA) 数据集,旨在深入探究对电影内容的认知理解。与侧重于表面理解的现有数据集不同,MovieCORE 强调需要系统 2 思考的问题,同时保持对视频素材的特异性。我们提出了一种创新的代理头脑风暴方法,利用多个大型语言模型 (LLMs) 作为思维代理来生成和完善高质量的问题-答案对。为了评估数据集质量,我们开发了一套认知测试,评估深度、激发思考的潜力和句法复杂性。我们还提出了一种全面的评估方案,用于评估 VQA 模型在更深层认知任务上的性能。为了解决现有视频-语言模型 (VLMs) 的局限性,我们引入了一个代理增强模块,称为代理选择增强 (ACE),该模块通过训练后将模型推理能力提高高达 25%。我们的工作有助于推进 AI 系统中的电影理解,并为当前 VQA 模型在面对更具挑战性、更细微的电影内容问题时的能力和局限性提供了宝贵的见解。我们的项目页面、数据集和代码可在 https://joslefaure.github.io/assets/html/moviecore.html 找到。

我们的项目页面、数据集和代码可以在 https://joslefaure.github.io/assets/html/moviecore.html 找到。