Pixel-SAIL:用于像素级理解的单Transformer

04月14日发表
04月16日由 Xiangtai LiXiangtai Li 提交
作者: Tao ZhangTao Zhang, Xiangtai LiXiangtai Li, Zilong Huang, Yanwei LiYanwei Li, Weixian Lei, Xueqing DengXueqing Deng, Shihao chenShihao Chen, Shunping Ji, Jiashi FengJiashi Feng

摘要

多模态大型语言模型 (MLLM) 在细粒度像素级理解任务中取得了显著的性能。然而,所有工作都严重依赖于额外的组件,例如视觉编码器 (CLIP)、分割专家,导致系统复杂性高并限制了模型扩展。在这项工作中,我们的目标是探索一种高度简化的 MLLM,而无需引入额外的组件。我们的工作受到最近关于单 Transformer 作为统一视觉-语言模型 (SAIL) 设计的工作的启发,这些工作共同学习 Transformer 中的视觉标记和文本标记。我们提出了 Pixel-SAIL,一种用于像素级 MLLM 任务的单 Transformer。特别是,我们针对普通基线提出了三项技术改进。首先,我们设计了一个可学习的上采样模块来细化视觉标记特征。其次,我们提出了一种新颖的视觉提示注入策略,使单 Transformer 能够理解视觉提示输入,并受益于视觉提示嵌入和视觉标记的早期融合。第三,我们引入了一种视觉专家蒸馏策略,以有效增强单 Transformer 的细粒度特征提取能力。此外,我们还收集了一个全面的像素理解基准 (PerBench),并进行了人工检查。它包括三个任务:详细的对象描述、基于视觉提示的问答和视觉-文本指代分割。在四个指代分割基准、一个视觉提示基准和我们的 PerBench 上的大量实验表明,我们的 Pixel-SAIL 以更简单的流程实现了可比甚至更好的结果。代码和模型将在 https://github.com/magic-research/Sa2VA 上发布。
查看 arXiv 页面查看 PDF

评论

Xiangtai LiXiangtai Li
论文作者
论文提交者

多模态大型语言模型 (MLLM) 在细粒度的像素级理解任务中取得了卓越的性能。然而,所有工作都严重依赖额外的组件,例如视觉编码器 (CLIP)、分割专家,导致系统复杂性高,并限制了模型扩展。在这项工作中,我们的目标是探索一种高度简化的 MLLM,无需引入额外的组件。我们的工作受到最近关于单转换器作为统一视觉-语言模型 (SAIL) 设计的研究的启发,这些研究在转换器中共同学习视觉 tokens 和文本 tokens。我们提出了 Pixel-SAIL,一种用于像素级 MLLM 任务的单转换器。特别是,我们针对普通基线提出了三项技术改进。首先,我们设计了一个可学习的上采样模块来优化视觉 token 特征。其次,我们提出了一种新颖的视觉提示注入策略,使单转换器能够理解视觉提示输入,并从视觉提示嵌入和视觉 tokens 的早期融合中获益。第三,我们引入了一种视觉专家蒸馏策略,以有效增强单转换器的细粒度特征提取能力。此外,我们还通过手动检查收集了一个全面的像素理解基准测试 (PerBench)。它包括三项任务:详细的对象描述、基于视觉提示的问答和视觉-文本指代分割。在四个指代分割基准测试、一个视觉提示基准测试和我们的 PerBench 上的大量实验表明,我们的 Pixel-SAIL 以更简单的流程实现了可比甚至更好的结果。

Xiangtai LiXiangtai Li
论文作者
论文提交者

代码即将发布: https://github.com/magic-research/Sa2VA