⏶90
不要蒙蔽你的VLA:对齐视觉表征以实现OOD泛化
发表
由
Nikita 提交
作者:
Nikita Kachaev, Mikhail Kolosov,
Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov
摘要
AI 生成总结
系统性研究表明,在视觉-语言-行为(VLA)模型中,简单的行为微调会降低视觉表征的质量,但有针对性的策略可以缓解此问题并提高模型的泛化能力。视觉-语言-行动(Vision-Language-Action, VLA)模型日益增长的成功源于一个前景:预训练的视觉-语言模型(Vision-Language Models, VLM)可以赋予智能体可迁移的世界知识和视觉-语言(VL)基础,从而为具有更广泛泛化能力的行动模型奠定基础。然而,当这些 VLM 被应用于行动模态时,它们原有的 VL 表示和知识在多大程度上得以保留仍不清楚。在这项工作中,我们对 VLA 微调过程中的表示保留情况进行了系统性研究,结果表明,简单的行动微调会导致视觉表示的退化。为了描述和衡量这些影响,我们探查了 VLA 的隐藏表示并分析了注意力图;此外,我们设计了一系列有针对性的任务和方法,将 VLA 模型与其对应的 VLM 进行对比,以分离由行动微调引起的 VL 能力变化。我们进一步评估了一系列用于对齐视觉表示的策略,并引入了一种简单而有效的方法,该方法可以减轻表示退化,并提高模型在分布外(OOD)场景中的泛化能力。总而言之,我们的分析阐明了行动微调与 VL 表示退化之间的权衡,并重点介绍了一些恢复继承的 VL 能力的实用方法。代码已公开:https://blind-vla-paper.github.io





ArXiv: https://arxiv.org/abs/2510.25616
项目页面: https://blind-vla-paper.github.io/
代码: https://github.com/CognitiveAISystems/BlindVLA
行动微调常常会“蒙蔽”VLA模型:它们会失去使其变得智能的视觉-语言(VL)先验知识。我们展示了如何通过一个微小的对齐损失来保持这些先验知识的完整性。👀🤖
🔍 我们探究了 OpenVLA 的 VL 表征,并观察到 3 个巨大问题:(1)注意力汇聚——注意力图变得模糊、嘈杂,并且与目标对象弱相关;(2)表征坍塌——补丁嵌入失去可分离性;(3)领域遗忘——在天真的 SFT 之后,符号/抽象类别中的 VL 理解能力下降。
✨ 遵循柏拉图式表征假说,我们引入了视觉表征对齐。在 SFT 期间,我们通过一个轻量级的冻结投影器,将 VLA 的视觉 tokens 拉向一个冻结教师的特征(余弦相似度)。在学习行动的同时保持感知锚定。这就像带着指南针学开车。策略学习控制,但指南针(与教师对齐的视觉)可以防止漂移到捷径式的、脆弱的感知。
📊 为了独立于低级控制来衡量 VLMs 到 VLAs 的 VL 理解和知识的转移,我们构建了 VL-Think——一个最小的拾取-放置套件,它将 VL 理解与控制隔离开来。它探究符号、颜色、箭头、交通/天气图标等,因此下降反映的是 VL 遗忘,而不是抓取技能。视觉表征对齐减轻了领域遗忘,并提升了颜色和形状任务的性能,甚至超过了 PrismaticVLM 的上限。然而,有限的数据多样性和 LoRA 容量阻碍了对稀有 VL 概念的恢复——这是未来工作的一个关键方向。
📈 我们在使用 VL-Think 和 RL4VLA 引入的基准测试中评估了我们的方法,该基准测试测量了 VLA 在视觉(纹理、噪声)、语义(未见对象、释义、干扰物)和执行(随机姿势、对象变化)方面的泛化能力。结果:对齐(我们的方法)> 天真的 SFT > 视觉编码器冻结在 OOD 设置中。我们的对齐方法在所有评估轴上都产生了持续的改进。在 ImageNet-100 上的线性探测显示出更强的特征。