以相机思考:用于以相机为中心的统一多模态模型 理解和生成

发表
Kang LiaoKang Liao 提交
作者: Kang LiaoKang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai WangYikai Wang, Fei Wang, Wei Li, Chen Change Loy

摘要

AI 生成总结
Puffin 是一种统一的多模态模型,它整合了语言回归和基于扩散的生成,通过将相机参数视为语言来增强以相机为中心的空间理解和生成。
以相机为中心的理解和生成是空间智能的两个基石,但它们通常是孤立研究的。我们提出了Puffin,一个统一的以相机为中心的多模态模型,它沿着相机维度扩展了空间感知能力。Puffin集成了语言回归和基于扩散的模型生成,以解释和创建任意视角的场景。为了弥合相机与视觉语言之间的模态鸿沟,我们引入了一种新颖的范式,将相机视为语言,从而实现“用相机思考”。这引导模型将空间基础的视觉线索与摄影术语对齐,同时推理几何上下文。Puffin在Puffin-4M上进行训练,这是一个包含400万个视觉-语言-相机三元组的大规模数据集。我们结合了全局相机参数和像素级相机图,实现了灵活可靠的空间生成。实验表明,Puffin在相机为中心的生成和理解方面的表现优于专用模型。通过指令微调,Puffin能够泛化到各种跨视角任务,如空间想象、世界探索和摄影指导。我们将发布代码、模型、数据集管道和基准,以推动多模态空间智能研究。
查看 arXiv 页面查看 PDF

评论