Sel3DCraft:用于用户友好的文本到3D生成的交互式视觉提示

发表
liangtianyiliangtianyi 提交
作者: Nan Xiang, liangtianyiTianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li

摘要

文本到3D(T23D)生成已改变数字内容创作,但仍受限于盲目试错的提示词输入过程,该过程会产生不可预测的结果。虽然视觉提示工程在文本到图像领域取得了进展,但其在3D生成中的应用面临独特的挑战,需要多视角一致性评估和空间理解。我们提出了 Sel3DCraft,一个用于 T23D 的视觉提示工程系统,它将非结构化探索转化为一个引导式的视觉过程。我们的方法引入了三个关键创新:一个结合检索和生成的双分支结构,用于探索多样的候选对象;一个多视角混合评分方法,利用多模态大语言模型(MLLM)和创新的高级指标,以人类专家一致性评估3D模型;以及一个提示驱动的视觉分析套件,能够直观地识别和完善缺陷。广泛的测试和用户研究表明,Sel3DCraft 在支持设计师创造力方面超越了其他 T23D 系统。
查看 arXiv 页面查看 PDF

评论

liangtianyiliangtianyi
论文作者
论文提交者

好的