PixelCraft:用于结构化图像高保真视觉推理的多智能体系统

发表
Zijian LiZijian Li 提交
作者: Shuoshuo Zhang, Zijian LiZijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang

摘要

AI 生成总结
PixelCraft 是一个多智能体系统,通过集成高保真图像处理和灵活的推理,以及动态工作流和图像记忆,增强了多模态大语言模型的视觉推理能力。
结构化图像(例如,图表和几何图)对于多模态大型语言模型(MLLM)来说仍然是一个挑战,因为感知错误会级联并导致错误的结论。中间视觉线索可以引导推理;然而,现有的基于线索的方法受限于低保真度图像处理和线性、僵化的推理模式,这限制了它们在复杂结构化图像任务上的有效性。在本文中,我们提出了 PixelCraft,一个用于结构化图像高保真度图像处理和灵活视觉推理的新颖多智能体系统。该系统由一个调度器、一个规划器、一个推理器、批评者以及一组视觉工具智能体组成。为了实现高保真度处理,我们构建了一个高质量的语料库,并将一个 MLLM 微调成一个基础模型,该模型的像素级定位与工具智能体中的传统计算机视觉(CV)算法相结合。在此基础上,PixelCraft 通过工具选择、智能体讨论和自我批评这三个阶段的动态工作流程,实现了灵活的视觉推理。此外,与仅仅附加历史图像的先前线性推理模式不同,PixelCraft 维护一个图像内存,允许规划器自适应地重新访问早期的视觉步骤,探索替代的推理分支,并在讨论过程中动态调整推理轨迹。在具有挑战性的图表和几何基准上的广泛实验表明,PixelCraft 显著提高了先进 MLLM 的视觉推理性能,为结构化图像推理设定了新的标准。我们的代码将在 https://github.com/microsoft/PixelCraft 上提供。
查看 arXiv 页面查看 PDF

评论

Zijian LiZijian Li
论文作者
论文提交者

一个新颖的多智能体系统,用于实现高保真度的视觉推理。下面展示了一个视觉推理处理的例子,该处理能够准确裁剪子图并屏蔽一些数据系列:

Screenshot 2025-09-30 at 11.31.52 AM