混合推理:教导大型语言模型运用自适应策略进行推理

发表
huxueyuhuxueyu 提交
作者: Tao XiongTao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang

摘要

大型语言模型(LLM)通过链式思维(CoT)和思维树(ToT)等高级提示技术在复杂任务中表现出色,但它们对手动编写的、针对特定任务的提示的依赖限制了适应性和效率。我们引入了推理混合(MoR),一个训练框架,它将多样化的推理策略嵌入到LLM中,以实现自主、任务自适应的推理,而无需外部提示工程。MoR包含两个阶段:思想生成,利用GPT-4o等模型创建推理链模板;以及SFT数据集构建,将模板与基准数据集配对进行监督微调。我们的实验表明,MoR显著提升了性能,其中MoR150在使用CoT提示时达到了0.730(2.2%的提升),与基线相比提升了0.734(13.5%)。MoR消除了对特定任务提示的需求,为跨多样化任务的稳健推理提供了通用解决方案。
查看 arXiv 页面查看 PDF

评论

huxueyuhuxueyu
论文提交者

大型语言模型(LLM)通过高级提示技术,如思维链(CoT)和思维树(ToT),擅长处理复杂任务,但它们对人工制作、任务特定提示的依赖限制了适应性和效率。我们引入了推理混合(MoR),这是一个训练框架,旨在将多样化的推理策略嵌入到LLM中,以实现自主的、任务自适应的推理,而无需外部提示工程。MoR包含两个阶段:思想生成,利用GPT-4o等模型创建推理链模板;以及SFT数据集构建,将模板与基准数据集配对进行监督学习。实验表明,MoR显著提升了性能,MoR150在使用CoT提示时达到了0.730(2.2%的提升),与基线相比达到0.734(13.5%的提升)。MoR消除了对任务特定提示的需求,为跨多样化任务的鲁棒推理提供了一个通用解决方案。