Tina:通过 LoRA 实现的微小推理模型

发表
Shangshang WangShangshang Wang 提交
作者: Shangshang WangShangshang Wang, Julian AsilisJulian Asilis, Omer Faruk AkgulÖmer Faruk Akgül, Enes Burak BilginEnes Burak Bilgin, Ollie Liu, Willie NeiswangerWillie Neiswanger

摘要

在语言模型中,可以多经济高效地实现强大的推理能力?受这个根本性问题的驱动,我们提出了 Tina,一个以高成本效率实现的一系列微型推理模型家族。值得注意的是,Tina 证明了,仅通过在强化学习 (RL) 期间应用参数高效更新(使用低秩适应 (LoRA)),到一个本身已经很小的 1.5B 参数基础模型上,就可以只使用极少的资源开发出显著的推理性能。这种极简主义方法产生的模型,其推理性能与构建在同一基础模型上的最先进 (SOTA) RL 推理模型具有竞争力,有时甚至超越。关键是,这仅以现有 SOTA 模型所使用的计算后训练成本的极小一部分实现。事实上,最好的 Tina 模型在 AIME24 上实现了 >20% 的推理性能提升和 43.33% 的 Pass@1 准确率,而其后训练和评估成本仅为 9 美元(即,估计成本降低了 260 倍)。我们的工作揭示了通过 LoRA 进行高效 RL 推理的惊人有效性。我们在多个开源推理数据集和各种消融设置中验证了这一点,从一个单一固定的超参数集开始。此外,我们假设这种有效性和效率源于 LoRA 快速调整模型以适应 RL 奖励的推理结构格式,同时在很大程度上保留了基础模型的底层知识。为了可访问性和开放研究,我们完全开源了所有代码、训练日志以及模型权重和检查点。
查看 arXiv 页面查看 PDF

评论

Shangshang WangShangshang Wang
论文作者
论文提交者

想要强大的语言模型推理能力又不花大钱?我们探索了如何利用 LoRA 通过强化学习(RL)以极高的成本效益提升推理能力!🚀 我们发布了 Tina 系列模型,这些模型是在强化学习(RL)过程中使用低秩适应(LoRA)对 DeepSeek-R1-Distill-Qwen-1.5B 基础模型进行后期训练而创建的。🤩 我们的 Tina 模型与基于相同基础模型的 SOTA 模型相竞争,有时甚至超越它们,且成本效益惊人地高。通过最少的后期训练计算量,最优的 Tina 检查点在 AIME24 上实现了相对于基础模型 >20% 的性能提升和 43% 的 Pass@1 分数。而且,重现最优的 Tina 检查点仅需花费 9 美元,从头重现我们所有实验仅需花费 526 美元!

Thomas NguyenThomas Nguyen

这个模型很快会在 HuggingFace 上发布吗?

Shangshang WangShangshang Wang
论文作者
论文提交者

感谢您的回复!Tina 模型已在此处发布:https://huggingface.co/Tina-Yi