⏶6
Router-R1: 通过强化学习教会LLM多轮路由和聚合
发表
由
XaiverZ 提交
作者: Haozhen Zhang, Tao Feng, Jiaxuan You
摘要
多样化大型语言模型(LLM)的迅速崛起,催生了LLM路由器的发展,这些路由器旨在将用户查询分配给最合适的模型。然而,现有的LLM路由器通常执行单轮、一对一的映射(即,将每个查询独立分配给单个模型),这限制了它们处理需要多个LLM互补优势的复杂任务的能力。在本文中,我们提出了Router-R1,这是一个基于强化学习(RL)的框架,将多LLM路由和聚合表述为一个序列决策过程。Router-R1将路由器本身实例化为一个强大的LLM,利用其推理能力将“思考”动作(内部深思熟虑)与“路由”动作(动态模型调用)交织起来,并将每个响应整合到其不断演进的上下文中。为了指导学习,我们采用了一种轻量级的基于规则的奖励机制,包括格式奖励、最终结果奖励以及一种新颖的成本奖励,用于性能和成本的权衡优化,从而开辟了一条通过RL优化性能-成本权衡的途径。Router-R1也仅基于简单的模型描述符(如定价、延迟和示例性能)进行条件化,从而实现了对未见模型选择的强大泛化能力。在七个通用和多跳问答基准上的实验表明,Router-R1优于多个强基线,在保持鲁棒的泛化能力和成本管理的同时,实现了卓越的性能。代码可在https://github.com/ulab-uiuc/Router-R1获取。
各种大型语言模型(LLMs)的迅速兴起,推动了LLM路由器的发展,这些路由器能够将用户查询分配给最合适的模型。然而,现有的LLM路由器通常执行单轮一对一映射(即,将每个查询独立分配给单个模型),这限制了它们处理需要多个LLM互补优势的复杂任务的能力。在本文中,我们提出了Router-R1,这是一个基于强化学习(RL)的框架,它将多LLM路由和聚合表述为一个序列决策过程。Router-R1将路由器本身实例化为一个强大的LLM,利用其推理能力,将“思考”行动(内部思考)与“路由”行动(动态模型调用)交织起来,并将每个响应整合到其不断演进的上下文中。为了指导学习,我们采用了一种轻量级的基于规则的奖励,包括格式奖励、最终结果奖励,以及一种新颖的成本奖励,用于性能和成本权衡优化,为通过强化学习优化性能-成本权衡开辟了新途径。Router-R1还仅依赖于简单的模型描述符,例如定价、延迟和示例性能,从而能够对未见过的模型选择实现强大的泛化能力。在七个通用和多跳问答基准上的实验表明,Router-R1超越了几个强大的基线,在保持鲁棒的泛化能力和成本管理的同时,实现了卓越的性能。代码可在https://github.com/ulab-uiuc/Router-R1获取。