⏶39
Tinker:扩散模型对3D的馈赠——无需逐场景优化,即可从稀疏输入进行多视图一致性编辑
发表
由
Canyu Zhao 提交

作者:
Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen

摘要
我们介绍了 Tinker,这是一个多功能框架,用于高保真 3D 编辑,它可以在一次性(one-shot)和少样本(few-shot)模式下运行,无需进行任何每场景微调。与要求进行广泛的每场景优化以确保多视图一致性或生成数十个一致的编辑输入视图的先前技术不同,Tinker 即使只有一两张图像也能提供稳健、多视图一致的编辑。这种能力源于对预训练扩散模型的重新利用,从而释放了它们潜在的 3D 意识。为了推动该领域的研究,我们策划了第一个大规模多视图编辑数据集和数据管道,涵盖了各种场景和风格。基于该数据集,我们开发了一个无需每场景训练即可生成多视图一致编辑视图的框架,该框架包含两个新颖的组件:(1)参照多视图编辑器:实现精确、以参照为导向的编辑,在所有视点上保持一致。(2)任意视图到视频合成器:利用视频扩散的空间时间先验,即使输入稀疏也能执行高质量的场景补全和新视图生成。通过广泛的实验,Tinker 显著降低了通用 3D 内容创作的门槛,在编辑、新视图合成和渲染增强任务上取得了最先进的性能。我们相信 Tinker 是实现真正可扩展的、零样本 3D 编辑的关键一步。项目网页:https://aim-uofa.github.io/Tinker
https://cdn-uploads.huggingface.co/production/uploads/646efd223dd912a539e0bd46/wmCH04MGoWv7yUw-o2OAW.mp4