图像具有可变长度的表示形式

发表
Zineng TangZineng Tang 提交
作者: Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang

摘要

大多数现有的视觉编码器将图像映射到固定长度的 token 序列,而忽略了不同图像包含的信息量不同的事实。例如,一个视觉上复杂的图像(如杂乱的房间)本质上携带更多信息,因此比一个简单的图像(如空白墙)需要更多的 token。为了解决这种低效率问题,我们提出了 DOVE,一种动态视觉编码器,它生成可变数量的视觉 token(即连续表示向量)来重建每个图像。我们的结果表明,DOVE 显著减少了平均 token 数量,同时保持了高重建质量。在多项线性探测和下游多模态任务中,当使用远少于现有编码器-解码器方法使用的 token 时,它表现优于现有基于自编码器的 token 化方法,与固定长度编码相比,捕获了更具表现力的语义特征。我们进一步将 DOVE 扩展为查询条件 token 化。通过引导模型关注与查询相关的区域,它实现了更高效和更有针对性的语义提取。我们的代码和检查点可在 https://dove-encoder.github.io/dove-encoder 获取。
查看 arXiv 页面查看 PDF
图像具有可变长度的表示形式

评论

Zineng TangZineng Tang
论文提交者

大多数现有的视觉编码器将图像映射到固定长度的标记序列,却忽略了不同图像包含信息量不同的事实。例如,一个视觉复杂的图像(例如,杂乱的房间)本质上承载着更多的信息,因此比一个简单图像(例如,空白墙壁)需要更多的标记。为了解决这种低效率问题,我们提出了DOVE,一个动态视觉编码器,它生成可变数量的视觉标记(即连续表示向量)来重建每个图像。我们的结果表明,DOVE在保持高重建质量的同时,显著减少了平均标记数量。在多个线性探测和下游多模态任务中,它在使用少得多的标记时,超越了现有的基于自编码器的标记化方法,与固定长度编码相比,捕获了更具表达力的语义特征。我们进一步将DOVE扩展到查询条件标记化。通过引导模型关注与查询相关的区域,它实现了更高效和更有针对性的语义提取。我们的代码和检查点可在 https://dove-encoder.github.io/dove-encoder 获取。