重新排序图像块提升视觉模型

发表
Declan KutscherDeclan Kutscher 提交
作者: Declan KutscherDeclan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik GuptaRitwik Gupta

摘要

序列模型,例如 Transformer,要求输入表示为一维序列。在视觉领域,这通常涉及使用固定的按行优先(光栅扫描)顺序展平图像。虽然完全自注意力对置换等变,但现代长序列 Transformer 越来越依赖于打破这种不变性并引入对补丁顺序敏感性的架构近似。我们表明,在这种设置下,补丁顺序显著影响模型性能,简单的替代方案(如按列优先或希尔伯特曲线)会导致显著的准确率变化。受此启发,我们提出了 REOrder,一个用于发现任务最优补丁顺序的两阶段框架。首先,我们通过评估不同补丁序列的可压缩性,推导出一个信息论先验。然后,我们使用 REINFORCE 通过优化 Plackett-Luce 策略来学习一个关于置换的策略。这种方法使得能够在组合置换空间中实现高效学习。REOrder 在 ImageNet-1K 上相对于按行优先顺序将 top-1 准确率提高了高达 3.01%,在 Functional Map of the World 上提高了 13.35%。
查看 arXiv 页面查看 PDF

评论

Declan KutscherDeclan Kutscher
论文作者
论文提交者

本文提出了一種用於在線性化序列中尋找圖像塊最優排序的方法,適用於長序列視覺 Transformer。