InteractVLM:来自2D基础模型的3D交互推理

04月07日发表
04月14日由 Sai Kumar DwivediSai Kumar Dwivedi 提交
作者: Sai Kumar DwivediSai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas

摘要

我们介绍了 InteractVLM,一种新颖的方法,用于从单张野外图像中估计人体和物体上的 3D 接触点,从而实现准确的 3D 人物对象联合重建。由于遮挡、深度歧义和物体形状的广泛变化,这具有挑战性。现有方法依赖于通过昂贵的运动捕捉系统或繁琐的手动标记收集的 3D 接触注释,这限制了可扩展性和泛化性。为了克服这个问题,InteractVLM 利用了大型视觉语言模型 (VLM) 的广泛视觉知识,并使用有限的 3D 接触数据进行了微调。然而,直接应用这些模型并非易事,因为它们仅在 2D 中推理,而人物对象接触本质上是 3D 的。因此,我们引入了一个新颖的渲染-定位-提升模块,该模块:(1)通过多视图渲染将 3D 人体和物体表面嵌入 2D 空间,(2)训练一个新颖的多视图定位模型 (MV-Loc) 以推断 2D 中的接触,以及 (3) 将这些接触提升到 3D。此外,我们提出了一个名为语义人物接触估计的新任务,其中人物接触预测明确地以物体语义为条件,从而实现更丰富的交互建模。InteractVLM 在接触估计方面优于现有工作,并且还有助于从野外图像进行 3D 重建。代码和模型可在 https://interactvlm.is.tue.mpg.de 获取。
查看 arXiv 页面查看 PDF

评论

Sai Kumar DwivediSai Kumar Dwivedi
论文作者
论文提交者

项目页面:https://interactvlm.is.tue.mpg.de/

GitHub 链接 (代码计划于 2025 年 5 月发布):https://github.com/saidwivedi/InteractVLM