⏶1
用于视觉问答的视觉可解释子任务推理
发表
由
Yu Cheng 提交
作者:
Yu Cheng,
Arushi Goel, Hakan Bilen
摘要
回答像“哪些红色家具可以用来坐?”这样的复杂视觉问题需要多步推理,包括对象识别、属性过滤和关系理解。最近的工作通过将任务分解为子任务程序来提高多模态大语言模型(MLLMs)的可解释性,但这些方法由于对目标数据的适应性差,计算成本高且准确性较低。为了解决这个问题,我们引入了VISTAR (Visually Interpretable Subtask-Aware Reasoning Model),一个子任务驱动的训练框架,通过在MLLMs内部生成文本和视觉解释来增强可解释性和推理能力。VISTAR不依赖外部模型,而是微调MLLMs以生成结构化的子任务思维链推理(分步推理序列)。在两个基准测试上的实验表明,VISTAR在保持可解释性的同时,持续提高了推理准确性。我们的代码和数据集将在https://github.com/ChengJade/VISTAR上可用。
已被 CVPR XAI 研讨会 2025 接收