⏶6

BlenderGym：用于图形编辑的基础模型系统基准测试

04月02日发表

04月14日由 Yunqi Gu(Richard) 提交

作者: Yunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas

摘要

3D 图形编辑在电影制作和游戏设计等应用中至关重要，但它仍然是一个耗时的过程，需要高度专业的领域知识。自动化此过程具有挑战性，因为图形编辑需要执行各种任务，每项任务都需要不同的技能组合。最近，视觉-语言模型 (VLM) 已成为自动化编辑过程的强大框架，但其开发和评估受到缺乏综合基准的瓶颈，该基准需要人类水平的感知并呈现真实世界的编辑复杂性。在这项工作中，我们提出了 BlenderGym，这是第一个用于 3D 图形编辑的综合 VLM 系统基准。BlenderGym 通过基于代码的 3D 重建任务评估 VLM 系统。我们评估了封闭源和开源 VLM 系统，并观察到即使是最先进的 VLM 系统也难以完成对人类 Blender 用户来说相对容易的任务。在 BlenderGym 的支持下，我们研究了推理缩放技术如何影响 VLM 在图形编辑任务中的性能。值得注意的是，我们的发现表明，用于指导生成缩放的验证器本身可以通过推理缩放来改进，这补充了最近关于编码和数学任务中 LLM 生成的推理缩放的见解。我们进一步表明，推理计算并非均匀有效，可以通过在生成和验证之间策略性地分配它来优化。

查看 arXiv 页面查看 PDF

Yunqi Gu(Richard)

论文作者

论文提交者

您应该使用哪种多模态 LLM 在 Blender 中编辑图形？

今天，我们发布了我们的 #CVPR2025 亮点🌟 工作，#BlenderGym 🏋️‍♀️，第一个代理式 3D 图形编辑基准，它将准确告诉您多模态 LLM 在 Blender 编辑技能方面的比较情况。

BlenderGym：用于图形编辑的基础模型系统基准测试

摘要

评论