Resa:通过SAEs实现透明推理模型

发表
Shangshang WangShangshang Wang 提交
作者: Shangshang WangShangshang Wang, Julian Asilis, Omer Faruk AkgulÖmer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing FuDeqing Fu, Willie NeiswangerWillie Neiswanger

摘要

我们如何通过利用语言模型的基础表示,以最具成本效益的方式在语言模型中引发强大的推理能力?我们通过 Resa 回答了这个问题,Resa 是一系列 1.5B 的推理模型,通过新颖高效的稀疏自编码器调优(SAE-Tuning)程序进行训练。该方法首先训练一个 SAE 以从源模型中捕获推理能力,然后使用训练好的 SAE 来指导标准的监督微调过程,以在目标模型中引发此类能力,所有这些都使用经过验证的问答数据,不包含任何推理痕迹。值得注意的是,当在进一步的 RL 后训练之前应用于某些基础模型时,SAE-Tuning 保留了其经 RL 训练对应模型 >97% 的推理性能,同时将训练成本降低了 >2000 倍,降至约 1 美元,并将训练时间缩短了 >450 倍,降至约 20 分钟。此外,当应用于轻度 RL 训练的模型(例如,在 2 个 GPU 上训练 1 小时内)时,它仅需额外约 1 美元的成本即可实现 43.33% Pass@1 在 AIME24 和 90% Pass@1 在 AMC23 等推理性能。令人惊讶的是,通过 SAE 提取的推理能力可能既可泛化又模块化。泛化性意味着从一个数据集提取的能力仍然能提升在更大且重叠语料库上的性能。模块化意味着从 Qwen 或 Qwen-Math 提取的能力可以在测试时附加到 R1-Distill 模型上,无需任何再训练,并产生可比的增益。广泛的消融实验验证了这些发现,并且所有工件都已完全开源。
查看 arXiv 页面查看 PDF

评论

Shangshang WangShangshang Wang
论文作者
论文提交者

稀疏自编码器(SAE)可以极其高效地激发强大的推理能力。仅用1小时、花费2美元的训练成本,且无需任何推理痕迹,我们找到了一种通过SAE训练1.5B模型的方法,使其在AIME24上获得43.33%的Pass@1分数,并在AMC23上获得90%的Pass@1分数。