⏶2
Rex-Thinker:通过思维链推理实现接地对象指代
发表
由
Qing Jiang 提交

作者:
Qing Jiang,
Xingyu Chen,
Zhaoyang Zeng, Junzhi Yu, Lei Zhang

摘要
对象指代旨在检测图像中与给定自然语言描述相匹配的所有对象。我们认为一个稳健的对象指代模型应该是可接地的,这意味着它的预测既可解释又忠实于视觉内容。具体而言,它应满足两个关键属性:1) 可验证性,通过产生可解释的推理来证明其预测的合理性,并将其与视觉证据清晰地联系起来;以及 2) 可信性,通过学习在图像中没有对象满足给定表达时进行弃权。然而,大多数方法将指代视为直接的边界框预测任务,提供有限的可解释性,并且难以拒绝没有匹配对象的表达。在这项工作中,我们提出了 Rex-Thinker,一个将对象指代表述为显式 CoT 推理任务的模型。给定一个指代表达,我们首先识别与所指对象类别对应的所有候选对象实例。然后,Rex-Thinker 对每个候选对象进行逐步推理,以评估它是否与给定表达匹配,然后做出最终预测。为了支持这种范式,我们通过在 HumanRef 数据集上提示 GPT-4o 构建了一个名为 HumanRef-CoT 的大规模 CoT 风格指代数据集。每个推理轨迹都遵循结构化的规划、行动和总结格式,使模型能够学习分解的、可解释的对对象候选的推理。然后,我们分两个阶段训练 Rex-Thinker:一个冷启动有监督微调阶段,以教模型如何执行结构化推理,随后是基于 GRPO 的强化学习,以提高准确性和泛化能力。实验表明,我们的方法在域内评估中,无论是在精度还是可解释性方面都优于标准基线,同时还展示了在拒绝幻觉输出方面的改进能力和在域外设置中的强大泛化能力。

主页:https://rexthinker.github.io/