⏶32
通过跨模态注意力注入对齐的新视角图像与几何合成
发表
由
Bracio 提交
作者: Min-Seop Kwak, Junho Kim,
Sangdoo Yun,
Dongyoon Han, Taekyoung Kim, Seungryong Kim,
Jin-Hwa Kim

摘要
我们引入了一个基于扩散的框架,该框架通过一种扭曲-修复方法执行对齐的新颖视角图像和几何生成。与需要密集姿态图像或受限于域内视图的姿态嵌入生成模型不同,我们的方法利用现成的几何预测器从参考图像预测部分几何,并将新颖视角合成公式化为图像和几何的修复任务。为了确保生成的图像和几何之间准确对齐,我们提出了跨模态注意力蒸馏,其中图像扩散分支的注意力图在训练和推理期间被注入到并行的几何扩散分支中。这种多任务方法实现了协同效应,促进了几何上鲁棒的图像合成以及清晰的几何预测。我们进一步引入了基于邻近度的网格条件化,以整合深度和法线线索,在点云之间进行插值,并过滤掉错误预测的几何对生成过程的影响。经验上,我们的方法在各种未见场景中实现了图像和几何的高保真外推视图合成,在插值设置下提供了具有竞争力的重建质量,并生成了几何对齐的彩色点云,用于全面的3D补全。项目页面可在 https://cvlab-kaist.github.io/MoAI 访问。
评论
论文提交者