⏶42
QwenLong-CPRS: 迈向具有动态上下文优化的无限长LLM
发表
由
Weizhou Shen 提交
作者: Weizhou Shen, Chenliang Li,
Fanqi Wan,
Shengyi Liao, Shaopeng Lai, Bo Zhang,
Yingcheng Shi, Yuning Wu, Gang Fu, Zhansheng Li, Bin Yang, Ji Zhang, Fei Huang, Jingren Zhou, Ming Yan

摘要
本技术报告介绍了 QwenLong-CPRS,这是一个为显式长上下文优化而设计的上下文压缩框架,旨在解决预填充阶段高昂的计算开销以及大型语言模型(LLMs)在处理长序列时出现的“中间丢失”性能下降问题。QwenLong-CPRS 通过一种新颖的动态上下文优化机制实现,支持由自然语言指令引导的多粒度上下文压缩,从而实现了效率提升和性能改进。QwenLong-CPRS 在Qwen架构系列基础上发展而来,引入了四个关键创新:(1) 自然语言引导的动态优化,(2) 用于增强边界感知的双向推理层,(3) 带有语言建模头部的 token 批评机制,以及 (4) 窗口并行推理。在五个基准测试(涵盖 4K-2M 词上下文)上的综合评估展示了 QwenLong-CPRS 的三重有效性:(1) 在准确性和效率方面持续优于 RAG 和稀疏注意力等其他上下文管理方法。(2) 与包括 GPT-4o、Gemini2.0-pro、Claude3.7-sonnet、DeepSeek-v3 和 Qwen2.5-max 在内的所有主流 LLM 的架构无关集成,实现了 21.59 倍的上下文压缩以及平均 19.15 分的性能提升;(3) 与 Qwen2.5-32B-Instruct 结合部署时,QwenLong-CPRS 在 Ruler-128K 和 InfiniteBench 上分别以 4.85 和 10.88 分的优势超越了领先的专有 LLM,建立了新的 SOTA(最先进)性能。
评论
论文提交者
此评论已隐藏。
论文提交者
GitHub: https://github.com/Tongyi-Zhiwen/QwenLong-CPRS
HuggingFace: https://huggingface.co/Tongyi-Zhiwen/QwenLong-CPRS-7B
ModelScope: https://modelscope.cn/models/iic/QwenLong-CPRS-7B