⏶144
将AI效率从模型中心转向数据中心压缩
发表
由
Zichen Wen 提交
作者:
Xuyang Liu,
Zichen Wen,
Shaobo Wang,
Junjie Chen,
Zhishan Tao, Yubo Wang,
Xiangqi Jin, Chang Zou, Yiyu Wang,
Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu,
Conghui He,
Linfeng Zhang



摘要
大型语言模型 (LLM) 和多模态 LLM (MLLM) 的快速发展历来依靠模型中心的扩展,通过将参数数量从百万增加到数千亿来驱动性能提升。然而,随着我们接近模型规模的硬件限制,主要的计算瓶颈已根本性地转移到长 token 序列上自注意力机制的二次方成本,这现在是由超长文本上下文、高分辨率图像和扩展视频驱动的。在这篇立场论文中,我们认为高效人工智能的研究重点正在从模型中心的压缩转向数据中心的压缩。我们将 token 压缩定位为新的前沿,它通过减少模型训练或推理期间的 token 数量来提高人工智能效率。通过全面的分析,我们首先考察了跨各个领域的长上下文人工智能的最新发展,并为现有的模型效率策略建立了一个统一的数学框架,展示了为什么 token 压缩代表着解决长上下文开销的关键范式转变。随后,我们系统地回顾了 token 压缩的研究领域,分析了其根本优势并识别了其在各种场景中的引人注目的优势。此外,我们深入分析了当前 token 压缩研究中的挑战,并概述了有前景的未来方向。最终,我们的工作旨在为人工智能效率提供一个全新的视角,综合现有研究,并催化创新发展,以解决日益增长的上下文长度对人工智能社区进步带来的挑战。
评论

论文作者
🤗🤗 我们发布了一个开源仓库 "Awesome-Token-level-Model-Compression",该仓库收集了关于最近很棒的 token 压缩工作的200多篇论文!欢迎贡献您的建议!
大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的快速发展历来依赖于模型中心化的扩展,通过将参数计数从数百万增加到数千亿来推动性能提升。然而,随着我们接近模型规模的硬件极限,主要的计算瓶颈已从根本上转移到长序列代币上自注意力的二次成本,这现在是由超长文本上下文、高分辨率图像和扩展视频驱动的。在这篇立场论文中,我们认为高效人工智能的研究重点正在从模型中心化的压缩转向数据中心化的压缩。我们将代币压缩定位为新的前沿领域,它通过在模型训练或推理过程中减少代币数量来提高人工智能效率。通过全面的分析,我们首先考察了各个领域长上下文人工智能的最新发展,并为现有模型效率策略建立了统一的数学框架,论证了为什么代币压缩代表了解决长上下文开销的关键范式转变。随后,我们系统地回顾了代币压缩的研究现状,分析了其根本优势,并确定了其在不同场景下的突出优势。此外,我们还深入分析了当前代币压缩研究中的挑战,并勾勒了未来有希望的方向。最终,我们的工作旨在为人工智能效率提供一个新的视角,综合现有研究,并催化创新发展,以应对不断增加的上下文长度给人工智能社区发展带来的挑战。