生成式积木世界:在图片中移动物体

发表
Vaibhav VavilalaVaibhav Vavilala 提交
作者: Vaibhav VavilalaVaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand BhattadAnand Bhattad

摘要

我们描述了生成式积木世界(Generative Blocks World),它通过操纵简单的几何抽象来与生成图像的场景进行交互。我们的方法将场景表示为凸三维图元的集合,同一场景可以用不同数量的图元表示,允许编辑者移动整个结构或微小细节。场景几何编辑完成后,图像通过基于流的方法生成,该方法以深度和纹理提示为条件。我们的纹理提示考虑了修改后的三维图元,超越了现有键值缓存技术提供的纹理一致性。这些纹理提示(a)允许精确的物体和相机移动,并且(b)在很大程度上保留了所描绘物体的身份。定量和定性实验表明,我们的方法在视觉保真度、可编辑性和组合泛化方面优于现有工作。
查看 arXiv 页面查看 PDF

评论

Vaibhav VavilalaVaibhav Vavilala
论文作者
论文提交者

我们可以将 3D 基元拟合到任何图像,并用它们来控制图像合成。

Hosu LeeHosu Lee

您好,感谢您分享这项有趣的工作。作为一名非本领域的专家,我对您选择LAION图像进行训练感到好奇——选择这个数据集是否有特定的原因?此外,由于表1是唯一报告的定量指标,您认为仅凭这些数字是否足以让普通读者相信该方法的性能,或者您是否考虑过通过人类评估等方式,使结果对更广泛的受众更具说服力?谢谢!