自我导向的语言模型

发表
AKAK 提交
作者: Gabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander LewAlexander K. Lew, Jacob Andreas

摘要

AI 生成总结
DisCIPL 是一种结合规划器和跟随器模型的方法,通过生成特定任务的推理程序,实现了语言模型中高效且可验证的推理。
虽然测试时推理使语言模型能够处理复杂的任务,但在自然语言中搜索或规划可能缓慢、成本高昂且容易出错。 但是,即使 LM 难以模仿解决问题所需的精确推理步骤,它们通常也擅长描述其抽象结构——既包括如何验证解决方案,也包括如何搜索解决方案。本文介绍了 DisCIPL,一种用于“自引导”LM 的方法,其中 Planner 模型生成一个特定于任务的推理程序,该程序由一组 Follower 模型执行。我们的方法使 LM 能够编写指导 LM 推理的递归搜索程序,从而实现新型的可验证且高效的推理形式。当使用小型 Follower(例如,Llama-3.2-1B)实例化时,DisCIPL 在具有挑战性的约束生成任务上与更大的模型(包括 GPT-4o 和 o1)相匹配(有时甚至优于它们)。通过将规划与执行分离,我们的工作开辟了一个高度并行化的蒙特卡洛推理策略的设计空间,该策略优于标准的 best-of-N 采样,无需微调,并且可以由现有的 LM 自动实现。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-04-10 at 1.33.20 PM.png