⏶91

Cache-to-Cache：大型语言模型之间的直接语义通信

10月03日发表

10月09日由 Tianyu Fu 提交

作者: Tianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang

摘要

AI 生成总结

Cache-to-Cache (C2C) 通过神经网络投影实现了 LLM 之间的直接语义通信，与基于文本的通信相比，提高了准确性并降低了延迟。

多 LLM 系统利用不同大型语言模型互补的优势，实现了单个模型无法达到的性能和效率提升。在现有设计中，LLM 通过文本进行通信，迫使内部表示被转换为输出 token 序列。这个过程既丢失了丰富的语义信息，又产生了逐 token 生成的延迟。受这些限制的启发，我们提出了疑问：LLM 能否超越文本进行通信？Oracle 实验表明，丰富 KV 缓存的语义可以在不增加缓存大小的情况下提高响应质量，这支持了 KV 缓存作为模型间通信的有效媒介。因此，我们提出了 Cache-to-Cache (C2C)，一种 LLM 之间直接语义通信的新范式。C2C 使用神经网络来投影和融合源模型的 KV 缓存和目标模型的 KV 缓存，以实现直接的语义传输。一个可学习的门控机制会选择受益于缓存通信的目标层。与文本通信相比，C2C 利用了两个模型的深度专业化语义，同时避免了显式的中间文本生成。实验表明，C2C 的平均准确率比单个模型高 8.5-10.5%。与文本通信范式相比，它进一步提高了约 3.0-5.0%，同时将延迟平均提高了 2.0 倍。我们的代码可在 https://github.com/thu-nics/C2C 获取。

查看 arXiv 页面查看 PDF

Tianyu Fu

论文作者

论文提交者

LLMs 能否超越文本进行交流？我们探索了 Cache-to-Cache (C2C) 作为一种新的多 LLM 通信范式。它直接在模型之间投影和融合 KV 缓存以传递语义，在单模型基础上实现了约 8.5-10.5% 的平均准确率提升，在文本交换基础上提升了约 3.0-5.0%，延迟降低了约 2 倍。代码已开源。

Tianyu Fu

论文作者

论文提交者

idea

ANAND VASHISHTHA

我喜欢用于选择性层融合的可学习门控机制的概念。2 倍的延迟降低是一个巨大的进步。

Tianyu Fu

论文作者

论文提交者

非常感谢您对我们工作的兴趣和善意评价！😊
我们非常期待看到社区如何基于“Cache-to-Cache”通信进行构建，并进一步推动这一方向的发展。

Cache-to-Cache：大型语言模型之间的直接语义通信

摘要

评论