语言模型的变分推理

发表
Tianyu PangTianyu Pang 提交
作者: Xiangxin ZhouXiangxin Zhou, ZichenZichen Liu, Haonan Wang, Chao Du, Min Lin, chongxuan liChongxuan Li, Liang Wang, Tianyu PangTianyu Pang

摘要

AI 生成总结
一个变分推理框架将思维轨迹视为潜在变量,通过变分推断对其进行优化,以提高语言模型的推理能力。
我们介绍了一种用于语言模型的变分推理框架,该框架将思考过程视为潜在变量,并通过变分推理对其进行优化。从证据下界 (ELBO) 开始,我们将其扩展为多轨迹目标以获得更紧密的界限,并提出了一种前向 KL 公式化,以稳定变分后验的训练。我们进一步表明,拒绝采样微调和二元奖励 RL(包括 GRPO)可以解释为局部前向 KL 目标,其中模型精度的隐式加权自然产生于推导,并揭示了一种先前未被注意到的对更容易问题的偏见。我们在 Qwen 2.5 和 Qwen 3 模型家族的广泛推理任务上通过实证验证了我们的方法。总的来说,我们的工作提供了一种原理性的概率视角,它将变分推理与 RL 风格的方法统一起来,并产生了改进语言模型推理能力的稳定目标。我们的代码可在 https://github.com/sail-sg/variational-reasoning 获取。
查看 arXiv 页面查看 PDF

评论

Tianyu PangTianyu Pang
论文作者
论文提交者

我们为语言模型引入了一个变分推理框架,该框架将思维痕迹视为潜在变量,并通过变分推理进行优化。从证据下界 (ELBO) 出发,我们将其扩展到多痕迹目标以获得更紧密的界限,并提出了一种前向 KL 公式来稳定变分后验的训练。我们进一步证明,拒绝采样微调和二元奖励 RL(包括 GRPO)可以解释为局部前向 KL 目标,其中模型准确性引起的隐式加权自然地来自推导,并揭示了一个先前未被注意到的偏向简单问题的偏差。我们在 Qwen 2.5 和 Qwen 3 模型系列上跨多种推理任务进行了实证验证。总的来说,我们的工作提供了一个原则性的概率视角,将变分推理与 RL 式方法统一起来,并为提高语言模型的推理能力提供了稳定的目标。我们的代码可在 此 https URL 获取。