Mini-o3:扩展用于视觉搜索的推理模式和交互回合

发表
taesiritaesiri 提交
作者: Xin Lai, Junyi LiJunyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao

摘要

AI 生成总结
Mini-o3 是一个用于视觉搜索任务中深度、多轮推理的系统,它采用迭代数据收集管道和过度遮蔽策略,以丰富的推理模式实现最先进的性能。
大型多模态模型的最新进展已经利用基于图像的工具和强化学习来解决视觉问题。然而,现有的开源方法通常表现出单调的推理模式,并且只允许有限数量的交互轮次,这使得它们不足以应对需要反复试验的困难任务。在这项工作中,我们通过扩展工具交互来解决这一限制,并引入 Mini-o3,这是一个执行深度、多轮推理(跨越数十个步骤)并在具有挑战性的视觉搜索任务上实现最先进性能的系统。我们实现 OpenAI o3 风格行为的秘诀包括三个关键组件。首先,我们构建了 Visual Probe Dataset,这是一个包含数千个具有挑战性的视觉搜索问题的集合,专为探索性推理而设计。其次,我们开发了一个迭代数据收集管道,以获得表现出多样化推理模式(包括深度优先搜索、反复试验和目标维护)的冷启动轨迹。第三,我们提出了一种回合掩蔽策略,该策略可防止在强化学习过程中对超回合响应(达到最大回合数的响应)进行惩罚,从而平衡训练时间的效率和测试时间的扩展性。尽管训练时仅限制了六个交互回合,但我们的模型在推理时生成的轨迹自然地扩展到数十个回合,并且准确率随着回合数的增加而提高。广泛的实验表明,Mini-o3 产生了丰富的推理模式和深入的思维路径,有效地解决了具有挑战性的视觉搜索问题。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 近期大型多模态模型在解决视觉问题方面取得了进展,利用了基于图像的工具和强化学习。然而,现有的开源方法通常表现出单调的推理模式,并且只允许有限的交互轮次,这使得它们不足以应对需要反复试验探索的困难任务。在这项工作中,我们通过扩展工具交互来解决这一限制,并引入 Mini-o3,这是一个执行深度、多轮推理(跨越数十个步骤)并能在具有挑战性的视觉搜索任务上实现最先进性能的系统。我们复制 OpenAI o3 风格行为的秘诀包括三个关键组件。首先,我们构建了视觉探针数据集(Visual Probe Dataset),这是一个包含数千个具有挑战性的视觉搜索问题,旨在进行探索性推理。其次,我们开发了一个迭代数据收集管道,以获取具有多样化推理模式(包括深度优先搜索、反复试验和目标维护)的冷启动轨迹。第三,我们提出了一种回合掩码策略,该策略在强化学习期间避免对回合过多响应(达到最大回合数的响应)进行惩罚,从而平衡训练时的效率和测试时的可扩展性。尽管在训练时仅使用最多六个交互回合的上限,但我们的模型在推理时会生成自然扩展到数十个回合的轨迹,并且随着回合数的增加,准确率也会提高。大量的实验表明,Mini-o3 产生了丰富的推理模式和深入的思考路径,有效地解决了具有挑战性的视觉搜索问题。