从多模态基础模型中的动力学模型自举世界模型

发表
Edoardo Maria PontiEdoardo Maria Ponti 提交
作者: Yifu QiuYifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo Maria PontiEdoardo M. Ponti

摘要

视觉-语言基础模型在多大程度上拥有一个现实世界模型(观察 × 动作 → 观察)和一个动力学模型(观察 × 观察 → 动作),特别是当动作通过语言表达时?尽管开源基础模型在两者上都表现不佳,但我们发现,通过监督微调来获得动力学模型比获得世界模型要容易得多。反过来,动力学模型可以通过两种主要策略来引导世界模型:1) 从合成数据中进行弱监督学习,以及 2) 推理时验证。首先,动力学模型可以为未标记的视频帧观察对标注动作,以扩展训练数据。我们进一步提出了一种新的目标,即观察对中的图像标记根据其重要性进行加权,而重要性则由识别模型预测。其次,动力学模型可以为世界模型的多个样本分配奖励,以便对其进行评分,从而有效地在推理时指导搜索。我们通过在Aurora-Bench上执行以动作为中心的图像编辑任务,评估了这两种策略所产生的世界模型。我们表现最佳的模型取得了与最先进的图像编辑模型相当的性能,根据GPT4o的评判,在真实世界子集上比它们提高了15%,并在Aurora-Bench的所有子集上实现了最佳的平均人工评估。
查看 arXiv 页面查看 PDF

评论

Edoardo Maria PontiEdoardo Maria Ponti
论文作者
论文提交者

视觉-语言基础模型在多大程度上具备真实世界模型(观察 × 动作 → 观察)和动力学模型(观察 × 观察 → 动作),而动作通过语言表达?尽管开源基础模型在这两者上都面临困难,但我们发现,通过监督学习对它们进行微调以获得动力学模型,显著地比获得世界模型更容易。反过来,动力学模型可以通过两种主要策略用于引导世界模型:1) 从合成数据中进行弱监督学习,以及 2) 推理时验证。首先,动力学模型可以为未标注的视频帧观察对标注动作,以扩展训练数据。我们进一步提出一个新的目标,其中观察对中的图像token根据其重要性进行加权,这重要性由识别模型预测。其次,动力学模型可以为世界模型的多个样本分配奖励以对其进行评分,从而有效地在推理时指导搜索。我们通过在Aurora-Bench上执行以动作为中心的图像编辑任务,评估了这两种策略产生的世界模型。我们最好的模型达到了与最先进图像编辑模型相当的性能,根据GPT4o作为评判员的结果,在真实世界子集上将它们的性能提升了15%,并在Aurora-Bench的所有子集上取得了最佳的平均人工评估结果。