⏶27
Olaf-World:面向视频世界建模的潜在动作定向
发表
由
taesiri 提交
作者:
Yuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou
摘要
AI 生成总结
序列级控制效应对齐为视频世界模型中的零样本动作迁移实现了结构化潜动作空间学习。由于动作标签稀缺,动作可控世界模型的规模化受到限制。虽然潜动作学习有望从无标签视频中提取控制接口,但学到的潜变量通常无法跨语境迁移:它们纠缠了特定场景的线索,且缺乏共享坐标系。这是因为标准目标函数仅在每个片段内运行,没有在语境间对齐动作语义的机制。我们的核心见解是,尽管动作不可见,但其语义效应是可观测的,可以作为共享参考。我们引入了 SeqΔ-REPA,这是一种序列级控制-效应对齐目标,它将集成潜动作锚定到来自冻结的自监督视频编码器的时间特征差异上。基于此,我们推出了 Olaf-World,一个从大规模被动视频中预训练动作条件视频世界模型的流水线。广泛实验表明,我们的方法学到了更结构化的潜动作空间,与最先进的基准相比,实现了更强的零样本动作迁移和更高数据效率的控制接口适配。
https://cdn-uploads.huggingface.co/production/uploads/6039478ab3ecf716b1a5fd4d/-nwidD2PD8Wizbk1YFeoA.mp4