⏶34
AToken:统一的视觉标记器
发表
由
taesiri 提交
作者:
Jiasen Lu,
Liangchen Song,
Mingze Xu,
Byeongjoo Ahn, Yanjun Wang,
Chen Chen,
Afshin Dehghan, Yinfei Yang
摘要
AI 生成总结
AToken 是一种统一的视觉分词器,采用 4D Transformer 架构和无对抗训练,在图像、视频和 3D 资产上实现了高保真重建和语义理解。我们提出了AToken,这是第一个统一的视觉分词器,在图像、视频和3D资产上实现了高保真重建和语义理解。与现有的专注于单一模态重建或理解的分词器不同,AToken将这些多样的视觉输入编码到一个共享的4D潜在空间中,在一个框架内统一了这两个任务和所有模态。具体来说,我们引入了一个纯Transformer架构,并采用4D旋转位置嵌入来处理任意分辨率和时间长度的视觉输入。为了确保训练的稳定性,我们引入了一个无对抗的训练目标,该目标结合了感知损失和Gram矩阵损失,实现了最先进的重建质量。通过采用渐进式训练课程,AToken逐渐从单张图像、视频和3D扩展,并支持连续和离散的潜在标记。AToken在图像上实现了0.21的rFID和82.2%的ImageNet准确率,在视频上实现了3.01的rFVD和32.6%的MSRVTT检索,在3D上实现了28.19的PSNR和90.9%的分类准确率。在下游应用中,AToken支持视觉生成任务(例如,使用连续和离散标记的图像生成、文本到视频生成、图像到3D合成)和理解任务(例如,多模态LLM),在所有基准上都取得了有竞争力的性能。这些结果为构建在统一视觉分词器之上的下一代多模态AI系统提供了启示。
我们提出了 AToken,第一个统一的视觉标记器,它在图像、视频和 3D 资产上同时实现了高保真重建和语义理解。与目前专注于单一模态重建或理解的标记器不同,AToken 将这些多样的视觉输入编码到一个共享的 4D 潜在空间中,在一个框架内统一了这两个任务和模态。具体来说,我们引入了一个纯 transformer 架构,具有 4D 旋转位置嵌入,用于处理任意分辨率和时间长度的视觉输入。为了确保训练的稳定性,我们引入了一个无对抗的训练目标,结合了感知损失和 Gram 矩阵损失,实现了最先进的重建质量。通过采用渐进式训练课程,AToken 逐步从单个图像、视频和 3D 扩展,并支持连续和离散的潜在 token。AToken 在图像上实现了 0.21 rFID 和 82.2% 的 ImageNet 准确率,在视频上实现了 3.01 rFVD 和 32.6% 的 MSRVTT 检索,在 3D 上实现了 28.19 PSNR 和 90.9% 的分类准确率。在下游应用中,AToken 同时支持视觉生成任务(例如,使用连续和离散 token 的图像生成、文本到视频生成、图像到 3D 合成)和理解任务(例如,多模态 LLM),在所有基准测试中都取得了有竞争力的性能。这些结果为建立在统一视觉标记之上的下一代多模态 AI 系统提供了启示。