Ring-lite:通过C3PO稳定化的强化学习实现LLM的可扩展推理

发表
AKAK 提交
作者: Ring Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Xiong Jun WuJunwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, zujie wenZujie Wen

摘要

我们介绍了Ring-lite,这是一种基于专家混合(MoE)的大型语言模型,通过强化学习(RL)进行优化,以实现高效和鲁棒的推理能力。该方法以公开可用的Ling-lite模型为基础(一个拥有168亿参数但仅激活27.5亿参数的模型),在AIME、LiveCodeBench、GPQA-Diamond等挑战性基准测试中,其性能与最先进(SOTA)的小型推理模型相当,但仅激活了同类模型所需参数的三分之一。为实现这一目标,我们引入了一个将蒸馏与强化学习相结合的联合训练流水线,揭示了MoE强化学习训练中未被记录的挑战。首先,我们发现了强化学习训练中的优化不稳定性,并提出了受约束上下文计算策略优化(C3PO),这是一种通过算法-系统协同设计方法来增强训练稳定性和提高计算吞吐量的新颖方法。其次,我们通过经验证明,在强化学习训练中,基于熵损失而不是验证指标来选择蒸馏检查点,可以在随后的强化学习训练中带来更优的性能-效率权衡。最后,我们开发了一种两阶段训练范式,以协调多领域数据集成,解决在混合数据集训练中出现的领域冲突。我们将发布模型、数据集和代码。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-06-18 at 12.44.21 AM.png