⏶2
KVCOMM:用于高效 LLM 多代理系统的在线跨上下文 KV 缓存通信
发表
由
Hancheng Ye 提交
作者:
Hancheng Ye, Zhengqi Gao, Mingyuan Ma, Qinsi Wang, Yuzhe Fu, Ming-Yu Chung, Yueqian Lin, Zhijian Liu, Jianyi Zhang, Danyang Zhuo, Yiran Chen
摘要
AI 生成总结
KVCOMM 是一个无需训练的框架,通过有效地重用 KV 缓存并对齐缓存偏移来增强多代理 LLM 系统,在不损失质量的情况下实现了显著的加速。多智能体大型语言模型(LLM)系统越来越多地用于需要智能体之间通信和协调的复杂语言处理任务。然而,这些系统经常由于智能体之间重复处理重叠上下文而产生大量的开销。在典型的流水线中,一旦一个智能体接收到其前一个智能体的消息,就必须从头开始重新处理完整的上下文——包括之前的回合——导致处理效率低下。虽然键值(KV)缓存是避免单智能体设置中冗余计算的有效解决方案,因为前缀保持不变,但在多智能体场景中,由于智能体特定上下文扩展引入的发散前缀,它无法直接重用。我们发现核心挑战在于智能体之间 KV 缓存的偏移方差。为了解决这个问题,我们提出了 KVCOMM,一个无需训练的框架,它通过重用 KV 缓存并对各种前缀上下文下的重叠上下文的缓存偏移进行对齐,从而实现多智能体推理中的高效预填充。锚点池会在线维护和更新,允许动态适应不同的用户请求和上下文结构。KVCOMM 在各种多智能体工作负载中实现了超过 70% 的重用率,包括检索增强生成、数学推理和协作编码任务,所有这些都没有质量下降。特别地,当每个全连接智能体在五智能体设置下接收 1K 个输入 token、512 个前缀 token 和 512 个输出 token 时,KVCOMM 与标准预填充流水线相比实现了高达 7.8 倍的加速,将 TTFT 从约 430 毫秒降低到约 55 毫秒。

[NeurIPS'2025] KVCOMM:面向高效 LLM 驱动的多智能体系统的在线跨上下文 KV 缓存通信