⏶17
Token 瓶颈:一个 Token 记忆动态
发表
由
Byeongho Heo 提交
作者:
Taekyung Kim,
Dongyoon Han,
Byeongho Heo, Jeongeun Park,
Sangdoo Yun
摘要
从动态场景中提取紧凑且具时间感知能力的视觉表示对于成功执行视觉跟踪和机器人操作等顺序场景理解任务至关重要。在本文中,我们引入了Token Bottleneck (ToBo),这是一种简单直观的自监督学习流程,它将一个场景“挤压”成一个瓶颈token,并利用最少量的补丁作为提示来预测后续场景。ToBo流程通过在“挤压”步骤中将参考场景保守地编码成紧凑的瓶颈token,从而促进了顺序场景表示的学习。在“扩展”步骤中,我们引导模型利用瓶颈token以及少量目标补丁作为提示来预测目标场景,从而捕捉时间动态。这种设计鼓励视觉骨干网络嵌入时间依赖性,从而实现对场景间动态转换的理解。在包括视频标签传播和模拟环境中的机器人操作等各种顺序任务中进行的广泛实验证明了ToBo优于基线方法。此外,将我们预训练的模型部署到真实机器人上,证实了其在真实世界环境中的鲁棒性和有效性。我们进一步验证了ToBo在不同模型规模下的可扩展性。
在机器人技术方面表现出色!