⏶91
Cache-to-Cache:大型语言模型之间的直接语义通信
发表
由
Tianyu Fu 提交

作者:
Tianyu Fu,
Zihan Min,
Hanling Zhang,
Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang

摘要
AI 生成总结
Cache-to-Cache (C2C) 通过神经网络投影实现了 LLM 之间的直接语义通信,与基于文本的通信相比,提高了准确性并降低了延迟。多 LLM 系统利用不同大型语言模型互补的优势,实现了单个模型无法达到的性能和效率提升。在现有设计中,LLM 通过文本进行通信,迫使内部表示被转换为输出 token 序列。这个过程既丢失了丰富的语义信息,又产生了逐 token 生成的延迟。受这些限制的启发,我们提出了疑问:LLM 能否超越文本进行通信?Oracle 实验表明,丰富 KV 缓存的语义可以在不增加缓存大小的情况下提高响应质量,这支持了 KV 缓存作为模型间通信的有效媒介。因此,我们提出了 Cache-to-Cache (C2C),一种 LLM 之间直接语义通信的新范式。C2C 使用神经网络来投影和融合源模型的 KV 缓存和目标模型的 KV 缓存,以实现直接的语义传输。一个可学习的门控机制会选择受益于缓存通信的目标层。与文本通信相比,C2C 利用了两个模型的深度专业化语义,同时避免了显式的中间文本生成。实验表明,C2C 的平均准确率比单个模型高 8.5-10.5%。与文本通信范式相比,它进一步提高了约 3.0-5.0%,同时将延迟平均提高了 2.0 倍。我们的代码可在 https://github.com/thu-nics/C2C 获取。
LLMs 能否超越文本进行交流?我们探索了 Cache-to-Cache (C2C) 作为一种新的多 LLM 通信范式。它直接在模型之间投影和融合 KV 缓存以传递语义,在单模型基础上实现了约 8.5-10.5% 的平均准确率提升,在文本交换基础上提升了约 3.0-5.0%,延迟降低了约 2 倍。代码已开源。