⏶6
BlenderGym:用于图形编辑的基础模型系统基准测试
04月02日发表
04月14日由
Yunqi Gu(Richard) 提交

作者:
Yunqi Gu,
Ian Huang,
Jihyeon Je, Guandao Yang, Leonidas Guibas

摘要
3D 图形编辑在电影制作和游戏设计等应用中至关重要,但它仍然是一个耗时的过程,需要高度专业的领域知识。自动化此过程具有挑战性,因为图形编辑需要执行各种任务,每项任务都需要不同的技能组合。最近,视觉-语言模型 (VLM) 已成为自动化编辑过程的强大框架,但其开发和评估受到缺乏综合基准的瓶颈,该基准需要人类水平的感知并呈现真实世界的编辑复杂性。在这项工作中,我们提出了 BlenderGym,这是第一个用于 3D 图形编辑的综合 VLM 系统基准。BlenderGym 通过基于代码的 3D 重建任务评估 VLM 系统。我们评估了封闭源和开源 VLM 系统,并观察到即使是最先进的 VLM 系统也难以完成对人类 Blender 用户来说相对容易的任务。在 BlenderGym 的支持下,我们研究了推理缩放技术如何影响 VLM 在图形编辑任务中的性能。值得注意的是,我们的发现表明,用于指导生成缩放的验证器本身可以通过推理缩放来改进,这补充了最近关于编码和数学任务中 LLM 生成的推理缩放的见解。我们进一步表明,推理计算并非均匀有效,可以通过在生成和验证之间策略性地分配它来优化。
您应该使用哪种多模态 LLM 在 Blender 中编辑图形?
今天,我们发布了我们的 #CVPR2025 亮点🌟 工作,#BlenderGym 🏋️♀️,第一个代理式 3D 图形编辑基准,它将准确告诉您多模态 LLM 在 Blender 编辑技能方面的比较情况。