Arch-Router:对齐LLM路由与人类偏好

发表
SalmanSalman 提交
作者: Co Tran, SalmanSalman Paracha, Adil Hafeez, Shuguang ChenShuguang Chen

摘要

随着大型语言模型(LLM)的迅速普及——每个模型都针对不同的优势、风格或延迟/成本配置文件进行优化——路由已成为操作化使用不同模型的关键技术。然而,现有的LLM路由方法在两个关键方面存在局限性:它们使用基准来评估性能,而这些基准往往无法捕捉由主观评估标准驱动的人类偏好,并且它们通常只能从有限的模型池中进行选择。在这项工作中,我们提出了一个偏好对齐的路由框架,通过将查询与用户定义的领域(例如,旅行)或操作类型(例如,图像编辑)进行匹配来指导模型选择——提供了一种在路由决策中编码偏好的实用机制。具体来说,我们引入了Arch-Router,一个紧凑的1.5B模型,它学习将查询映射到领域-操作偏好,以用于模型路由决策。我们的方法还支持无缝添加新的模型进行路由,而无需重新训练或修改架构。在对话数据集上的实验表明,我们的方法在将查询与人类偏好匹配方面取得了最先进(SOTA)的结果,超越了顶级的专有模型。我们的方法捕捉了主观评估标准,并使路由决策更加透明和灵活。我们的模型可在此处获取:https://huggingface.co/katanemo/Arch-Router-1.5B
查看 arXiv 页面查看 PDF
Arch-Router:对齐LLM路由与人类偏好

评论

SalmanSalman
论文作者
论文提交者

本文讨论了一种面向LLMs的偏好对齐路由框架,该框架通过将查询与用户定义的领域(例如旅行)或动作类型(例如图像编辑)进行匹配来指导模型选择——提供了一种在路由决策中编码偏好的实用机制。具体来说,我们引入了Arch-Router,这是一个紧凑的1.5B模型,它学习将查询映射到领域-动作偏好,以用于模型路由决策。