⏶18
Universal YOCO:用于高效深度扩展的通用 YOCO 架构
发表
由
Li Dong 提交
作者: Yutao Sun,
Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei
摘要
AI 生成总结
Universal YOCO 将 YOCO 解码器-解码器架构与递归计算相结合,在大语言模型中实现了高效推理和改进的扩展行为。测试时扩展(test-time scaling)的兴起显著提升了大语言模型(LLM)的推理和智能体能力。然而,标准 Transformer 难以高效地扩展推理时计算,因为传统的循环策略面临高计算开销以及随模型深度膨胀的 KV 缓存。我们提出了 Universal YOCO (YOCO-U),它将 YOCO 解码器-解码器架构与递归计算相结合,实现了优于两者独立运行的协同效应。基于 YOCO 框架,YOCO-U 实现了一个通用自解码器,通过参数共享执行多次迭代,同时将迭代过程限制在浅层、高效注意力层。这种组合产生了一种优越的能力-效率权衡,这是 YOCO 或递归独立无法实现的。YOCO 架构提供了恒定的全局 KV 缓存和线性预填充,而部分递归则以有限的开销增强了表征深度。总之,YOCO-U 在保持高效推理的同时提高了 Token 效用和扩展行为。实验结果证实,YOCO-U 在通用和长上下文基准测试中保持了极高的竞争力,证明了高效注意力架构与递归计算的集成是可扩展 LLM 的一个有前景的方向。

测试时扩展(test-time scaling)的兴起显著增强了大语言模型(LLM)的推理和代理能力。然而,标准 Transformer 在高效扩展推理时计算方面面临困难,因为传统的循环策略存在高计算开销,且 KV 缓存会随模型深度同步膨胀。我们提出了 Universal YOCO (YOCO-U),它将 YOCO 解码器-解码器架构与递归计算相结合,实现了优于两者独立运作的协同效应。YOCO-U 基于 YOCO 框架,实现了一个通用自解码器(Universal Self-Decoder),通过参数共享执行多次迭代,同时将迭代过程限制在浅层且高效的注意力层中。这种组合实现了在能力与效率之间的理想权衡,这是 YOCO 或递归独立无法达到的。YOCO 架构提供了恒定的全局 KV 缓存和线性预填充,而部分递归则以有限的开销增强了表示深度。总之,YOCO-U 在保持高效推理的同时提高了 Token 效用和扩展行为。实验结果证实,YOCO-U 在通用和长上下文基准测试中保持了极强的竞争力,证明了高效注意力架构与递归计算的整合是可扩展 LLM 的一个极具前景的方向。