⏶5

生成式积木世界：在图片中移动物体

06月25日发表

06月27日由 Vaibhav Vavilala 提交

作者: Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad

摘要

我们描述了生成式积木世界（Generative Blocks World），它通过操纵简单的几何抽象来与生成图像的场景进行交互。我们的方法将场景表示为凸三维图元的集合，同一场景可以用不同数量的图元表示，允许编辑者移动整个结构或微小细节。场景几何编辑完成后，图像通过基于流的方法生成，该方法以深度和纹理提示为条件。我们的纹理提示考虑了修改后的三维图元，超越了现有键值缓存技术提供的纹理一致性。这些纹理提示(a)允许精确的物体和相机移动，并且(b)在很大程度上保留了所描绘物体的身份。定量和定性实验表明，我们的方法在视觉保真度、可编辑性和组合泛化方面优于现有工作。

查看 arXiv 页面查看 PDF

Vaibhav Vavilala

论文作者

论文提交者

我们可以将 3D 基元拟合到任何图像，并用它们来控制图像合成。

Hosu Lee

您好，感谢您分享这项有趣的工作。作为一名非本领域的专家，我对您选择LAION图像进行训练感到好奇——选择这个数据集是否有特定的原因？此外，由于表1是唯一报告的定量指标，您认为仅凭这些数字是否足以让普通读者相信该方法的性能，或者您是否考虑过通过人类评估等方式，使结果对更广泛的受众更具说服力？谢谢！

生成式积木世界：在图片中移动物体

摘要

评论