用于视觉问答的视觉可解释子任务推理

发表
Yu ChengYu Cheng 提交
作者: Yu ChengYu Cheng, Arushi GoelArushi Goel, Hakan Bilen

摘要

回答像“哪些红色家具可以用来坐?”这样的复杂视觉问题需要多步推理,包括对象识别、属性过滤和关系理解。最近的工作通过将任务分解为子任务程序来提高多模态大语言模型(MLLMs)的可解释性,但这些方法由于对目标数据的适应性差,计算成本高且准确性较低。为了解决这个问题,我们引入了VISTAR (Visually Interpretable Subtask-Aware Reasoning Model),一个子任务驱动的训练框架,通过在MLLMs内部生成文本和视觉解释来增强可解释性和推理能力。VISTAR不依赖外部模型,而是微调MLLMs以生成结构化的子任务思维链推理(分步推理序列)。在两个基准测试上的实验表明,VISTAR在保持可解释性的同时,持续提高了推理准确性。我们的代码和数据集将在https://github.com/ChengJade/VISTAR上可用。
查看 arXiv 页面查看 PDF

评论

Yu ChengYu Cheng
论文作者
论文提交者

已被 CVPR XAI 研讨会 2025 接收