⏶93
视频模型是零样本学习者和推理者
发表
由
taesiri 提交

作者:
Thaddäus Wiedemer,
Yuxuan Li, Paul Vicol, Shixiang Shane Gu,
Nick Matarese,
Kevin Swersky, Been Kim, Priyank Jaini,
Robert Geirhos
摘要
AI 生成总结
Veo 3 是一款生成视频模型,在各种视觉任务中表现出零样本能力,表明其正朝着成为统一的、通用的视觉基础模型迈进。大型语言模型(LLM)卓越的零样本能力已推动自然语言处理从任务特定的模型发展为统一的、通用的基础模型。这种转变源于简单的原始要素:在网络规模数据上训练的大型生成模型。令人好奇的是,同样的原始要素也适用于当今的生成视频模型。视频模型是否也走上了通用视觉理解的轨迹,就像LLM发展了通用语言理解一样?我们证明Veo 3能够解决各种它并未明确训练过的任务:分割对象、检测边缘、编辑图像、理解物理属性、识别对象的功能、模拟工具使用等等。这些感知、建模和操作视觉世界的能力使得早期形式的视觉推理(如迷宫和对称性解决)成为可能。Veo中涌现的零样本能力表明,视频模型正朝着成为统一的、通用的视觉基础模型迈进。
大型语言模型(LLM)惊人的零样本能力已将自然语言处理从特定任务模型推向统一的、通用的基础模型。这种转变源于简单的原语:在大规模网络数据上训练的大型生成模型。奇怪的是,同样的这些原语也适用于当今的生成视频模型。视频模型是否也可能像 LLM 发展出通用语言理解能力一样,走向通用视觉理解的轨迹?我们证明 Veo 3 可以解决它并未明确训练过的各种任务:分割物体、边缘检测、图像编辑、理解物理属性、识别物体功能、模拟工具使用等等。这些感知、建模和操纵视觉世界的能力使得早期的视觉推理形式(如迷宫和对称性解决)成为可能。Veo 的涌现式零样本能力表明,视频模型正朝着成为统一的、通用的视觉基础模型方向发展。