⏶5

InteractVLM：来自2D基础模型的3D交互推理

04月07日发表

04月14日由 Sai Kumar Dwivedi 提交

作者: Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas

摘要

我们介绍了 InteractVLM，一种新颖的方法，用于从单张野外图像中估计人体和物体上的 3D 接触点，从而实现准确的 3D 人物对象联合重建。由于遮挡、深度歧义和物体形状的广泛变化，这具有挑战性。现有方法依赖于通过昂贵的运动捕捉系统或繁琐的手动标记收集的 3D 接触注释，这限制了可扩展性和泛化性。为了克服这个问题，InteractVLM 利用了大型视觉语言模型 (VLM) 的广泛视觉知识，并使用有限的 3D 接触数据进行了微调。然而，直接应用这些模型并非易事，因为它们仅在 2D 中推理，而人物对象接触本质上是 3D 的。因此，我们引入了一个新颖的渲染-定位-提升模块，该模块：（1）通过多视图渲染将 3D 人体和物体表面嵌入 2D 空间，（2）训练一个新颖的多视图定位模型 (MV-Loc) 以推断 2D 中的接触，以及 (3) 将这些接触提升到 3D。此外，我们提出了一个名为语义人物接触估计的新任务，其中人物接触预测明确地以物体语义为条件，从而实现更丰富的交互建模。InteractVLM 在接触估计方面优于现有工作，并且还有助于从野外图像进行 3D 重建。代码和模型可在 https://interactvlm.is.tue.mpg.de 获取。

查看 arXiv 页面查看 PDF

Sai Kumar Dwivedi

论文作者

论文提交者

项目页面：https://interactvlm.is.tue.mpg.de/

GitHub 链接 (代码计划于 2025 年 5 月发布)：https://github.com/saidwivedi/InteractVLM

InteractVLM：来自2D基础模型的3D交互推理

摘要

评论