检索增强的精简语言模型推理

发表
Ryan ChanRyan Chan 提交
作者: Ryan ChanRyan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan

摘要

本技术报告详细介绍了一种在单一、精简的语言模型架构中结合推理和检索增强生成(RAG)的新颖方法。虽然现有的 RAG 系统通常依赖于大规模模型和外部 API,但我们的工作解决了在资源受限或安全环境的可部署性、高性能和隐私保护解决方案日益增长的需求。基于测试时扩展和小型推理模型的最新进展,我们开发了一种检索增强的对话代理,它能够使用轻量级骨干模型解释复杂、领域特定的查询。我们的系统集成了密集检索器与经过微调的 Qwen2.5-Instruct 模型,并使用合成查询生成和从前沿模型(例如 DeepSeek-R1)获得的推理轨迹,在一个精心策划的语料库上进行,在本例中为 NHS A-to-Z 病情页面。我们探讨了基于摘要的文档压缩、合成数据设计和面向推理的微调对模型性能的影响。与非推理模型和通用型精简模型的评估表明,我们的领域特定微调方法在答案准确性和一致性方面取得了显著的提升,接近前沿水平的性能,同时仍可用于本地部署。所有实现细节和代码都已公开发布,以支持跨领域的重现性和适应性。
查看 arXiv 页面查看 PDF

评论

Ryan ChanRyan Chan
论文作者
论文提交者

本报告探讨了如何将推理和检索增强生成(RAG)结合到一个单一、紧凑的语言模型中。所提出的系统使用一个轻量级的骨干模型,在复杂、领域特定的问题上实现了强大的性能,使其适用于资源有限或隐私要求严格的环境部署。