⏶68
R2R:利用大小模型令牌路由高效探索分支推理路径
发表
由
Tianyu Fu 提交

作者:
Tianyu Fu, Yi Ge,
Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang


摘要
大型语言模型(LLMs)以巨大的推理开销为代价,实现了令人印象深刻的推理能力,带来了重大的部署挑战。尽管蒸馏的小型语言模型(SLMs)显著提高了效率,但由于未能遵循LLMs的推理路径,它们的性能会下降。幸运的是,我们发现只有一小部分token真正导致LLMs和SLMs之间的推理路径分歧。大多数生成的token要么相同,要么表现出中性差异,例如缩写或表达方式的微小变化。利用这一洞察,我们引入了**Roads to Rome (R2R)**,一种神经token路由方法,它只选择性地利用LLMs处理这些关键的、导致路径分歧的token,而将大部分token生成留给SLM。我们还开发了一个自动数据生成流水线,用于识别分歧的token并生成token级路由标签,以训练轻量级路由器。我们将R2R应用于结合DeepSeek系列的R1-1.5B和R1-32B模型,并在具有挑战性的数学、编程和问答基准上进行评估。R2R的平均激活参数量为5.6B,其平均准确率超越R1-7B达1.6倍,甚至优于R1-14B模型。与R1-32B相比,它在可比性能下提供了2.8倍的实际运行时间加速,推动了测试时扩展效率的帕累托前沿。我们的代码可在https://github.com/thu-nics/R2R获取。
Roads to Rome (R2R) 是一种神经 token 路由器,它通过有选择地将关键的、需要推理分岔的 token 路由到大型模型,从而有效地结合了大型语言模型 (LLM) 和小型语言模型 (SLM)。通过结合 DeepSeek 的 R1-1.5B 和 R1-32B 模型,R2R-5.6B 在速度上比 R1-32B 提高了 2.8 倍,同时在挑战性数学、编程和问答基准测试的准确性上,分别超过了 R1-7B 和 R1-14B 1.6 倍和 1.1 倍。
代码已在 https://github.com/thu-nics/R2R 开源。