VoxHammer: 在原生3D空间中进行无需训练的精确连贯3D编辑

发表
zehuan-huangzehuan-huang 提交
作者: Li LinLin Li, zehuan-huangZehuan Huang, Haoran FengHaoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu ShengLu Sheng

摘要

对指定区域进行3D局部编辑对于游戏行业和机器人交互至关重要。近期的方法通常编辑渲染的多视图图像,然后重建3D模型,但它们在精确保留未编辑区域和整体一致性方面面临挑战。受到结构化3D生成模型的启发,我们提出了VoxHammer,一种新颖的无需训练的方法,可以在3D潜在空间中执行精确且一致的编辑。给定一个3D模型,VoxHammer首先预测其反转轨迹,并在每个时间步获得其反转的潜在向量和键值(key-value)令牌。随后,在去噪和编辑阶段,我们将保留区域的去噪特征替换为相应的反转潜在向量和缓存的键值令牌。通过保留这些上下文特征,该方法确保了保留区域的一致重建和编辑部分的连贯集成。为了评估保留区域的一致性,我们构建了Edit3D-Bench,一个包含数百个样本的人工标注数据集,每个样本都有仔细标记的3D编辑区域。实验表明,VoxHammer在保留区域的3D一致性和整体质量方面均显著优于现有方法。我们的方法有望合成高质量的编辑配对数据,从而为上下文3D生成奠定数据基础。请访问我们的项目页面 https://huanngzh.github.io/VoxHammer-Page/
查看 arXiv 页面查看 PDF

评论

zehuan-huangzehuan-huang
论文作者
论文提交者

简而言之:一种无需训练的 3D 编辑方法,可在原生 3D 潜在空间(而非多视图空间)中执行精确且连贯的编辑。

项目页面:https://huanngzh.github.io/VoxHammer-Page/

代码:https://github.com/Nelipot-Lee/VoxHammer

Edit3D-Bench:https://github.com/Nelipot-Lee/VoxHammer/Edit3D-Bench