AToken:统一的视觉标记器

发表
taesiritaesiri 提交
作者: JiasenluJiasen Lu, Liangchen SongLiangchen Song, Mingze XuMingze Xu, Byeongjoo AhnByeongjoo Ahn, Yanjun Wang, Chen ChenChen Chen, afshin dehghanAfshin Dehghan, Yinfei Yang

摘要

AI 生成总结
AToken 是一种统一的视觉分词器,采用 4D Transformer 架构和无对抗训练,在图像、视频和 3D 资产上实现了高保真重建和语义理解。
我们提出了AToken,这是第一个统一的视觉分词器,在图像、视频和3D资产上实现了高保真重建和语义理解。与现有的专注于单一模态重建或理解的分词器不同,AToken将这些多样的视觉输入编码到一个共享的4D潜在空间中,在一个框架内统一了这两个任务和所有模态。具体来说,我们引入了一个纯Transformer架构,并采用4D旋转位置嵌入来处理任意分辨率和时间长度的视觉输入。为了确保训练的稳定性,我们引入了一个无对抗的训练目标,该目标结合了感知损失和Gram矩阵损失,实现了最先进的重建质量。通过采用渐进式训练课程,AToken逐渐从单张图像、视频和3D扩展,并支持连续和离散的潜在标记。AToken在图像上实现了0.21的rFID和82.2%的ImageNet准确率,在视频上实现了3.01的rFVD和32.6%的MSRVTT检索,在3D上实现了28.19的PSNR和90.9%的分类准确率。在下游应用中,AToken支持视觉生成任务(例如,使用连续和离散标记的图像生成、文本到视频生成、图像到3D合成)和理解任务(例如,多模态LLM),在所有基准上都取得了有竞争力的性能。这些结果为构建在统一视觉分词器之上的下一代多模态AI系统提供了启示。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

我们提出了 AToken,第一个统一的视觉标记器,它在图像、视频和 3D 资产上同时实现了高保真重建和语义理解。与目前专注于单一模态重建或理解的标记器不同,AToken 将这些多样的视觉输入编码到一个共享的 4D 潜在空间中,在一个框架内统一了这两个任务和模态。具体来说,我们引入了一个纯 transformer 架构,具有 4D 旋转位置嵌入,用于处理任意分辨率和时间长度的视觉输入。为了确保训练的稳定性,我们引入了一个无对抗的训练目标,结合了感知损失和 Gram 矩阵损失,实现了最先进的重建质量。通过采用渐进式训练课程,AToken 逐步从单个图像、视频和 3D 扩展,并支持连续和离散的潜在 token。AToken 在图像上实现了 0.21 rFID 和 82.2% 的 ImageNet 准确率,在视频上实现了 3.01 rFVD 和 32.6% 的 MSRVTT 检索,在 3D 上实现了 28.19 PSNR 和 90.9% 的分类准确率。在下游应用中,AToken 同时支持视觉生成任务(例如,使用连续和离散 token 的图像生成、文本到视频生成、图像到 3D 合成)和理解任务(例如,多模态 LLM),在所有基准测试中都取得了有竞争力的性能。这些结果为建立在统一视觉标记之上的下一代多模态 AI 系统提供了启示。

Edmond JacoupeauEdmond Jacoupeau

这个分词器有 Huggingface 页面吗?

JiasenluJiasenlu
论文作者

我们正在处理代码发布进度,Hugging Face 将在代码和模型发布之后。