⏶1

用于视觉问答的视觉可解释子任务推理

05月12日发表

05月15日由 Yu Cheng 提交

作者: Yu Cheng, Arushi Goel, Hakan Bilen

摘要

回答像“哪些红色家具可以用来坐？”这样的复杂视觉问题需要多步推理，包括对象识别、属性过滤和关系理解。最近的工作通过将任务分解为子任务程序来提高多模态大语言模型（MLLMs）的可解释性，但这些方法由于对目标数据的适应性差，计算成本高且准确性较低。为了解决这个问题，我们引入了VISTAR (Visually Interpretable Subtask-Aware Reasoning Model)，一个子任务驱动的训练框架，通过在MLLMs内部生成文本和视觉解释来增强可解释性和推理能力。VISTAR不依赖外部模型，而是微调MLLMs以生成结构化的子任务思维链推理（分步推理序列）。在两个基准测试上的实验表明，VISTAR在保持可解释性的同时，持续提高了推理准确性。我们的代码和数据集将在https://github.com/ChengJade/VISTAR上可用。

查看 arXiv 页面查看 PDF

Yu Cheng

论文作者

论文提交者

已被 CVPR XAI 研讨会 2025 接收

用于视觉问答的视觉可解释子任务推理

摘要

评论