⏶6

Router-R1: 通过强化学习教会LLM多轮路由和聚合

06月10日发表

06月18日由 XaiverZ 提交

作者: Haozhen Zhang, Tao Feng, Jiaxuan You

摘要

多样化大型语言模型（LLM）的迅速崛起，催生了LLM路由器的发展，这些路由器旨在将用户查询分配给最合适的模型。然而，现有的LLM路由器通常执行单轮、一对一的映射（即，将每个查询独立分配给单个模型），这限制了它们处理需要多个LLM互补优势的复杂任务的能力。在本文中，我们提出了Router-R1，这是一个基于强化学习（RL）的框架，将多LLM路由和聚合表述为一个序列决策过程。Router-R1将路由器本身实例化为一个强大的LLM，利用其推理能力将“思考”动作（内部深思熟虑）与“路由”动作（动态模型调用）交织起来，并将每个响应整合到其不断演进的上下文中。为了指导学习，我们采用了一种轻量级的基于规则的奖励机制，包括格式奖励、最终结果奖励以及一种新颖的成本奖励，用于性能和成本的权衡优化，从而开辟了一条通过RL优化性能-成本权衡的途径。Router-R1也仅基于简单的模型描述符（如定价、延迟和示例性能）进行条件化，从而实现了对未见模型选择的强大泛化能力。在七个通用和多跳问答基准上的实验表明，Router-R1优于多个强基线，在保持鲁棒的泛化能力和成本管理的同时，实现了卓越的性能。代码可在https://github.com/ulab-uiuc/Router-R1获取。

查看 arXiv 页面查看 PDF

XaiverZ

论文提交者

各种大型语言模型（LLMs）的迅速兴起，推动了LLM路由器的发展，这些路由器能够将用户查询分配给最合适的模型。然而，现有的LLM路由器通常执行单轮一对一映射（即，将每个查询独立分配给单个模型），这限制了它们处理需要多个LLM互补优势的复杂任务的能力。在本文中，我们提出了Router-R1，这是一个基于强化学习（RL）的框架，它将多LLM路由和聚合表述为一个序列决策过程。Router-R1将路由器本身实例化为一个强大的LLM，利用其推理能力，将“思考”行动（内部思考）与“路由”行动（动态模型调用）交织起来，并将每个响应整合到其不断演进的上下文中。为了指导学习，我们采用了一种轻量级的基于规则的奖励，包括格式奖励、最终结果奖励，以及一种新颖的成本奖励，用于性能和成本权衡优化，为通过强化学习优化性能-成本权衡开辟了新途径。Router-R1还仅依赖于简单的模型描述符，例如定价、延迟和示例性能，从而能够对未见过的模型选择实现强大的泛化能力。在七个通用和多跳问答基准上的实验表明，Router-R1超越了几个强大的基线，在保持鲁棒的泛化能力和成本管理的同时，实现了卓越的性能。代码可在https://github.com/ulab-uiuc/Router-R1获取。

Router-R1: 通过强化学习教会LLM多轮路由和聚合

摘要

评论