Token 瓶颈:一个 Token 记忆动态

发表
Byeongho HeoByeongho Heo 提交
作者: Taekyung KimTaekyung Kim, Dongyoon HanDongyoon Han, Byeongho HeoByeongho Heo, Jeongeun Park, Sangdoo YunSangdoo Yun

摘要

从动态场景中提取紧凑且具时间感知能力的视觉表示对于成功执行视觉跟踪和机器人操作等顺序场景理解任务至关重要。在本文中,我们引入了Token Bottleneck (ToBo),这是一种简单直观的自监督学习流程,它将一个场景“挤压”成一个瓶颈token,并利用最少量的补丁作为提示来预测后续场景。ToBo流程通过在“挤压”步骤中将参考场景保守地编码成紧凑的瓶颈token,从而促进了顺序场景表示的学习。在“扩展”步骤中,我们引导模型利用瓶颈token以及少量目标补丁作为提示来预测目标场景,从而捕捉时间动态。这种设计鼓励视觉骨干网络嵌入时间依赖性,从而实现对场景间动态转换的理解。在包括视频标签传播和模拟环境中的机器人操作等各种顺序任务中进行的广泛实验证明了ToBo优于基线方法。此外,将我们预训练的模型部署到真实机器人上,证实了其在真实世界环境中的鲁棒性和有效性。我们进一步验证了ToBo在不同模型规模下的可扩展性。
查看 arXiv 页面查看 PDF

评论

Byeongho HeoByeongho Heo
论文作者
论文提交者

在机器人技术方面表现出色!

Taekyung KimTaekyung Kim
论文作者

我们引入了Token Bottleneck,它既能在一个瓶颈token内对观测到的场景进行保守摘要,又能从连续场景的瓶颈token中理解时间动态。此外,我们在项目页面提供了真实世界的演示。