⏶13
利用生成的图像进行思考
发表
由
Ethan Chern 提交
作者:
Ethan Chern, Zhulin Hu,
Steffi Chern,
Siqi Kou, Jiadi Su,
Yan Ma,
Zhijie Deng,
Pengfei Liu




摘要
我们提出“用生成图像思考(Thinking with Generated Images)”,这是一种新颖的范例,通过使大型多模态模型(LMMs)能够通过自发生成中间视觉思考步骤,在文本和视觉模态之间进行原生思考,从而从根本上改变 LMMs 进行视觉推理的方式。当前使用 LMMs 进行视觉推理仅限于处理用户提供的固定图像或仅通过基于文本的思维链(CoT)进行推理。“用生成图像思考”解锁了认知能力的新维度,模型可以主动构建中间视觉思考,批判自己的视觉假设,并将其作为推理过程的组成部分进行完善。我们通过两种互补的机制证明了我们方法的有效性:(1)带有中间视觉子目标的视觉生成,模型将复杂的视觉任务分解为可管理的组成部分,这些组成部分被逐步生成和整合;(2)带有自我批判的视觉生成,模型生成初始视觉假设,通过文本推理分析其不足之处,并基于自己的批判产生完善的输出。我们在视觉生成基准上的实验表明,相较于基线方法,我们的模型取得了显著的改进,在处理复杂的多目标场景时,相对改进高达 50%(从 38% 提高到 57%)。从探索新蛋白质结构的生物化学家、迭代空间设计的建筑师,到重建犯罪现场的法医分析师,以及设想战略性比赛的篮球运动员,我们的方法使人工智能模型能够进行那种特征人类创造性、分析性和战略性思维的视觉想象和迭代完善。我们在 https://github.com/GAIR-NLP/thinking-with-generated-images 发布了我们的开源套件。
我们提出了“用生成图像思考”(Thinking with Generated Images),这是一种全新的范式,通过使大型多模态模型(LMMs)能够通过自发生成中间视觉思考步骤,在文本和视觉模态之间进行原生思考,从而从根本上改变了它们参与视觉推理的方式。目前 LMM 的视觉推理仅限于处理用户提供的固定图像,或仅通过基于文本的思维链(CoT)进行推理。“用生成图像思考”开启了认知能力的新维度,模型可以积极构建中间视觉思考,批判自己的视觉假设,并将其作为推理过程不可或缺的组成部分进行完善。我们通过两种互补机制证明了我们方法的有效性:(1)具有中间视觉子目标的视觉生成,模型将复杂的视觉任务分解为可管理的组成部分,这些组成部分被逐步生成和集成;(2)具有自我批判的视觉生成,模型生成初始视觉假设,通过文本推理分析其缺点,并根据自己的批判生成完善的输出。我们在视觉生成基准上的实验表明,与基线方法相比,我们的方法取得了显著改进,我们的模型在处理复杂多对象场景时,相对改进高达 50%(从 38% 提高到 57%)。从探索新蛋白质结构的生物化学家,到迭代空间设计的建筑师,再到重建犯罪现场的法医分析师,以及构思战略性比赛的篮球运动员,我们的方法使人工智能模型能够参与到人类创造性、分析性和战略性思维所特有的视觉想象和迭代完善过程中。我们在 https://github.com/GAIR-NLP/thinking-with-generated-images 发布了我们的开源套件。