cadrille: 基于在线强化学习的多模态 CAD 重建

发表
maxmax 提交
作者: maxMaksim Kolodiazhnyi, Denis TarasovDenis Tarasov, DMITRII ZHEMCHUZHNIKOVDmitrii Zhemchuzhnikov, Alexander NikulinAlexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich

摘要

计算机辅助设计 (CAD) 在工程和制造中扮演着核心角色,使得创建精确且可编辑的 3D 模型成为可能。使用各种传感器或用户提供的数据作为 CAD 重建的输入,可以普及设计应用的访问。然而,现有方法通常只关注单一输入模态,例如点云、图像或文本,这限制了它们的泛化能力和鲁棒性。利用视觉语言模型 (VLM) 的最新进展,我们提出了一种多模态 CAD 重建模型,该模型可同时处理所有三种输入模态。受大型语言模型 (LLM) 训练范式的启发,我们采用了两阶段管道:在大规模程序生成数据上进行监督微调 (SFT),然后使用通过编程获得的在线反馈进行强化学习 (RL) 微调。此外,我们首次探索了用于 CAD 任务的 LLM 的 RL 微调,证明了在线 RL 算法(如 Group Relative Preference Optimization (GRPO))优于离线替代方案。在 DeepCAD 基准测试中,我们的 SFT 模型在所有三种输入模态上同时优于现有的单模态方法。更重要的是,经过 RL 微调后,cadrille 在三个具有挑战性的数据集(包括一个真实世界数据集)上取得了新的最先进成果。
查看 arXiv 页面查看 PDF

评论

maxmax
论文作者
论文提交者

本文介绍了 Cadrille,这是一个使用视觉-语言模型处理点云、图像和文本的多模态 CAD 重建模型,通过监督学习和强化学习微调取得了最先进的结果。