⏶14
令牌减少应该超越生成模型中的效率 -- 从视觉、语言到多模态
发表
由
Tony Kong 提交
作者: Zhenglun Kong,
Yize Li, Fanhu Zeng, Lei Xin, Shvat Messica, Xue Lin, Pu Zhao, Manolis Kellis, Hao Tang, Marinka Zitnik
摘要
在 Transformer 架构中,标记(tokens)——即从原始数据中派生出的离散单元——通过将输入分割成固定长度的块来形成。然后将每个标记映射到嵌入(embedding),从而实现并行注意力计算,同时保留输入的关键信息。由于 Transformer 自注意力机制的二次计算复杂度,标记缩减(token reduction)主要被用作一种效率策略。这尤其适用于单独的视觉和语言领域,在这些领域中,它有助于平衡计算成本、内存使用和推理延迟。尽管取得了这些进展,本文认为,在大型生成模型的时代,标记缩减应该超越其传统的效率导向角色。相反,我们将其定位为生成建模中的一个基本原则,深刻影响着模型架构和更广泛的应用。具体而言,我们认为,在视觉、语言和多模态系统中,标记缩减可以:(i) 促进更深度的多模态集成和对齐,(ii) 减轻“过度思考”和幻觉,(iii) 在长输入中保持连贯性,以及 (iv) 增强训练稳定性等。我们将标记缩减重新定义为不仅仅是一种效率衡量标准。通过这样做,我们概述了有前景的未来方向,包括算法设计、强化学习引导的标记缩减、上下文学习(in-context learning)的标记优化,以及更广泛的机器学习和科学领域。我们强调了它在驱动新的模型架构和学习策略方面的潜力,这些策略可以提高鲁棒性、增强可解释性,并更好地与生成建模的目标对齐。
由于 Transformer 自注意力机制的二次计算复杂度,token 缩减已被广泛用作一种效率策略,以平衡视觉、语言和多模态模型中的计算成本、内存使用和推理延迟。然而,仅仅从效率角度来看待 token 缩减是有根本性局限的。
本文提出将 token 缩减作为生成建模中的核心设计原则,它深度整合到训练和推理过程中,旨在优先处理那些在保留语义完整性的同时能够增强下游性能的 token。
⭐ 探索 GitHub 仓库: https://lnkd.in/er6i4pEQ
📚 更详细的按模态分类的论文列表可在以下 Google Sheet 中找到,其中包含每篇论文的简要介绍,涵盖了任务、token 缩减类型、贡献和方法。