自回归生成多视角一致图像

发表
HuHu 提交
作者: HuJiaKui Hu, Yuxiao Yang, Jialun LiuJialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu

摘要

从人类指令生成多视角图像对于3D内容创作至关重要。主要挑战包括在多个视角之间保持一致性,以及在不同条件下有效合成形状和纹理。在本文中,我们提出了多视角自回归 (MV-AR) 方法,该方法利用自回归模型从任意提示符逐步生成一致的多视角图像。首先,自回归模型的下一词元预测能力显著增强了其促进渐进式多视角合成的有效性。在生成大间隔视角时,MV-AR 可以利用其所有先前视角来提取有效的参考信息。随后,我们提出了一个统一模型,通过架构设计和训练策略来适应各种提示符。为了处理多种条件,我们引入了用于文本、相机姿态、图像和形状的条件注入模块。为了同时管理多模态条件,采用了渐进式训练策略。该策略首先采用文本到多视角 (t2mv) 模型作为基线,通过随机丢弃和组合条件来促进全面 X 到多视角 (X2mv) 模型的开发。最后,为了缓解高质量数据有限导致的过拟合问题,我们提出了“Shuffle View”数据增强技术,从而将训练数据量显著扩展了数倍。实验证明了我们 MV-AR 的性能和多功能性,它能在一系列条件下稳定生成一致的多视角图像,并且与领先的基于扩散的多视角图像生成模型表现相当。代码和模型将在 https://github.com/MILab-PKU/MVAR 发布。
查看 arXiv 页面查看 PDF

评论

HuHu
论文作者
论文提交者

基于扩散的多视角图像生成方法使用特定的参考视角来预测后续视角,当参考视角与预测视角之间的重叠度极小时,这会产生问题,影响图像质量和多视角一致性。我们的MV-AR通过使用具有显著重叠的前一视角进行条件化来解决此问题。