PixelThink:迈向高效的像素链推理

发表
Song WangSong Wang 提交
作者: Song WangSong Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang

摘要

现有的推理分割方法通常使用图像-文本对和相应的掩码标签来微调多模态大型语言模型(MLLMs)。然而,它们在没有明确推理过程的情况下,对分布外场景的泛化能力有限。尽管最近的研究通过群体相对策略优化(GRPO)利用强化学习来增强推理能力,但它们常常会过度思考——无论任务复杂性如何,都会产生统一冗长的推理链。这导致计算成本增加,且对推理质量的控制有限。为了解决这个问题,我们提出了PixelThink,一个简单而有效的方案,它在一个强化学习范式中,整合了外部估计的任务难度和内部测量的模型不确定性,以调节推理生成。模型学习根据场景复杂性和预测置信度来压缩推理长度。为了支持全面的评估,我们引入了ReasonSeg-Diff,这是一个扩展的基准数据集,带有标注的推理参考和难度分数,以及一套旨在联合评估分割准确性、推理质量和效率的指标。实验结果表明,所提出的方法提高了推理效率和整体分割性能。我们的工作为高效和可解释的多模态理解贡献了新的视角。代码和模型将公开可用。
查看 arXiv 页面查看 PDF

评论

Song WangSong Wang
论文作者
论文提交者

项目主页:https://PixelThink.github.io/