⏶5
用于高效3D LiDAR场景补全的直接偏好优化扩散蒸馏
04月15日发表
04月16日由
Shengyuan Zhang 提交
作者: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
摘要
扩散模型在 3D LiDAR 场景补全中的应用受到限制,因为扩散的采样速度较慢。分数蒸馏加速了扩散采样,但性能有所下降,而使用直接策略优化 (DPO) 进行后训练则利用偏好数据提高了性能。本文提出了 Distillation-DPO,一种用于 LiDAR 场景补全的扩散蒸馏新框架,具有偏好对齐。首先,学生模型生成具有不同初始噪声的成对补全场景。其次,使用 LiDAR 场景评估指标作为偏好,我们构建了获胜和失败的样本对。这种构建是合理的,因为大多数 LiDAR 场景指标信息丰富,但不可微,无法直接优化。第三,Distillation-DPO 通过利用教师模型和学生模型在成对补全场景中得分函数之间的差异来优化学生模型。重复此过程直到收敛。大量实验表明,与最先进的 LiDAR 场景补全扩散模型相比,Distillation-DPO 实现了更高质量的场景补全,同时将补全速度提高了 5 倍以上。据我们所知,我们的方法是第一个探索在蒸馏中采用偏好学习的方法,并为偏好对齐蒸馏提供了见解。我们的代码在 https://github.com/happyw1nd/DistillationDPO 上公开可用。
我们的代码已在 https://github.com/happyw1nd/DistillationDPO 上公开