Mem4Nav:利用分层空间认知长短期记忆系统提升城市环境中的视觉-语言导航能力

发表
Jie FengJie Feng 提交
作者: Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie FengJie Feng, Yong Li

摘要

在大型城市环境中进行视觉-语言导航(VLN)要求具身智能体能够在复杂场景中理解语言指令,并在长时间范围内回忆相关经验。先前的模块化管道提供了可解释性,但缺乏统一的内存;而端到端(多模态)LLM智能体擅长融合视觉和语言,但受限于固定的上下文窗口和隐含的空间推理。我们引入了Mem4Nav,一个分层空间认知长短期记忆系统,可以增强任何VLN骨干网络。Mem4Nav将用于细粒度体素索引的稀疏八叉树与用于高层地标连接的语义拓扑图融合,并都通过可逆Transformer嵌入到可训练的内存标记中进行存储。长期记忆(LTM)在八叉树和图节点上压缩并保留历史观察结果,而短期记忆(STM)则以相对坐标缓存近期多模态条目,用于实时避障和局部规划。在每一步中,STM检索能显著裁剪动态上下文,当需要更深层次的历史信息时,LTM标记可以无损解码以重建过去的嵌入。在Touchdown和Map2Seq数据集上,我们使用三种骨干网络(模块化、基于提示的LLM的最新VLN、以及基于跨步注意力MLLM的最新VLN)进行了评估,Mem4Nav在任务完成率上取得了7-13个百分点的提升,有效降低了SPD,并在nDTW上提升了超过10个百分点。消融实验证实了分层地图和双重记忆模块都不可或缺。我们的代码已通过 https://github.com/tsinghua-fib-lab/Mem4Nav 开源。
查看 arXiv 页面查看 PDF
Mem4Nav:利用分层空间认知长短期记忆系统提升城市环境中的视觉-语言导航能力

评论

Jie FengJie Feng
论文作者
论文提交者

Mem4Nav引入了一种用于视觉与语言导航的分层空间认知记忆系统,该系统结合了稀疏八叉树体素索引和语义拓扑图,以增强长期和短期记忆,并在大规模城市环境中实现了多个VLN骨干网络的显著性能改进。