Cache-to-Cache:大型语言模型之间的直接语义通信

发表
Tianyu FuTianyu Fu 提交
作者: Tianyu FuTianyu Fu, Zihan MinZihan Min, Hanling ZhangHanling Zhang, JICHAO YanJichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang

摘要

AI 生成总结
Cache-to-Cache (C2C) 通过神经网络投影实现了 LLM 之间的直接语义通信,与基于文本的通信相比,提高了准确性并降低了延迟。
多 LLM 系统利用不同大型语言模型互补的优势,实现了单个模型无法达到的性能和效率提升。在现有设计中,LLM 通过文本进行通信,迫使内部表示被转换为输出 token 序列。这个过程既丢失了丰富的语义信息,又产生了逐 token 生成的延迟。受这些限制的启发,我们提出了疑问:LLM 能否超越文本进行通信?Oracle 实验表明,丰富 KV 缓存的语义可以在不增加缓存大小的情况下提高响应质量,这支持了 KV 缓存作为模型间通信的有效媒介。因此,我们提出了 Cache-to-Cache (C2C),一种 LLM 之间直接语义通信的新范式。C2C 使用神经网络来投影和融合源模型的 KV 缓存和目标模型的 KV 缓存,以实现直接的语义传输。一个可学习的门控机制会选择受益于缓存通信的目标层。与文本通信相比,C2C 利用了两个模型的深度专业化语义,同时避免了显式的中间文本生成。实验表明,C2C 的平均准确率比单个模型高 8.5-10.5%。与文本通信范式相比,它进一步提高了约 3.0-5.0%,同时将延迟平均提高了 2.0 倍。我们的代码可在 https://github.com/thu-nics/C2C 获取。
查看 arXiv 页面查看 PDF

评论

Tianyu FuTianyu Fu
论文作者
论文提交者

LLMs 能否超越文本进行交流?我们探索了 Cache-to-Cache (C2C) 作为一种新的多 LLM 通信范式。它直接在模型之间投影和融合 KV 缓存以传递语义,在单模型基础上实现了约 8.5-10.5% 的平均准确率提升,在文本交换基础上提升了约 3.0-5.0%,延迟降低了约 2 倍。代码已开源。

Tianyu FuTianyu Fu
论文作者
论文提交者

idea

ANAND VASHISHTHAANAND VASHISHTHA

我喜欢用于选择性层融合的可学习门控机制的概念。2 倍的延迟降低是一个巨大的进步。

Tianyu FuTianyu Fu
论文作者
论文提交者

非常感谢您对我们工作的兴趣和善意评价!😊
我们非常期待看到社区如何基于“Cache-to-Cache”通信进行构建,并进一步推动这一方向的发展。