⏶28
离散扩散 VLA:将离散扩散引入视觉-语言-动作策略中的动作解码
发表
由
Zhixuan Liang 提交
作者:
Zhixuan Liang,
Yizhuo Li,
Tianshuo Yang,
Chengyue Wu, Sitong Mao, Liuao Pei,
Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo

摘要
视觉-语言-动作(VLA)模型将大型视觉-语言骨干模型适配到将图像和指令映射到机器人动作。然而,流行的 VLA 解码器要么以固定的从左到右顺序自回归地生成动作,要么将连续的扩散或流匹配头附加到骨干模型之外,这需要专门的训练和迭代采样,阻碍了统一、可扩展的架构。我们提出了离散扩散 VLA,一个单一的 Transformer 策略,它使用离散扩散对离散化动作块进行建模,并与 VLM 骨干模型使用相同的交叉熵目标进行训练。该设计保留了扩散的渐进式精炼范式,同时与 VLM 的离散令牌接口保持原生兼容。我们的方法实现了一种自适应解码顺序,该顺序在执行更难的动作元素之前解决更简单的动作元素,并使用次要重掩蔽来在精炼轮次中重新访问不确定的预测,从而提高一致性并实现鲁棒的错误校正。这个统一的解码器保留了预训练的视觉语言先验,支持并行解码,打破了自回归瓶颈,并减少了函数评估次数。离散扩散 VLA 在 LIBERO 上实现了 96.3% 的平均 SR,在 SimplerEnv Fractal 上实现了 71.2% 的视觉匹配,在 SimplerEnv Bridge 上实现了 49.3% 的总体性能,优于自回归和连续扩散基线。这些发现表明,离散扩散动作解码器支持精确的动作建模和一致的训练,为将 VLA 扩展到更大的模型和数据集奠定了基础。
将离散扩散模型引入视觉-语言-动作策略的动作解码。使用 LLADA / MMADA 风格的大型扩散语言模型执行动作生成。