⏶9
TeleChat2、TeleChat2.5和T1技术报告
发表
由
Zihan Wang 提交
作者:
Zihan Wang, Xinzhang Liu, Yitong Yao, Chao Wang, Yu Zhao, Zhihao Yang, Wenmin Deng, Kaipeng Jia, Jiaxin Peng, Yuyao Huang, Sishi Xiong, Zhuo Jiang, Kaidong Yu, Xiaohui Hu, Fubei Yao, Ruiyu Fang, Zhuoru Jiang, Ruiting Song, Qiyi Xie, Rui Xue, Xuewei He, Yanlei Xue, Zhu Yuan, Zhaoxi Zhang, Zilu Huang, Shiquan Wang, Xin Wang, Hanming Wu, Mingyuan Wang, Xufeng Zhan, Yuhan Sun, Zhaohu Xing, Yuhao Jiang, Bingkai Yang, Shuangyong Song, Yongxiang Li, Zhongjiang He, Xuelong Li
摘要
我们推出了最新一代的 TeleChat 模型系列:TeleChat2、TeleChat2.5 和 T1,这些模型是其前身 TeleChat 的重大升级。尽管模型架构变化不大,但新系列通过在预训练和后训练阶段采用强化的训练策略,实现了显著的性能提升。该系列始于 TeleChat2,它在 10 万亿高质量和多样化的 token 上进行了预训练。随后,通过有监督微调(SFT)和直接偏好优化(DPO)进一步增强了其能力。TeleChat2.5 和 T1 扩展了训练流程,加入了结合特定领域数据集的持续预训练阶段,并结合强化学习(RL),以提高在代码生成和数学推理任务中的性能。T1 变体专为复杂推理而设计,支持长链式思考(CoT)推理,并在数学和编码方面表现出显著改进。相比之下,TeleChat2.5 优先考虑速度,提供快速推理。T1 和 TeleChat2.5 这两个旗舰模型都是具有 1150 亿参数的密集型 Transformer 架构,与原始 TeleChat 相比,在推理和通用任务性能方面展现出显著进步。值得一提的是,T1-115B 的性能超越了 OpenAI 的 o1-mini 和 GPT-4o 等专有模型。我们公开发布了 TeleChat2、TeleChat2.5 和 T1,包括具有 350 亿和 1150 亿参数的后训练版本,旨在为开发人员和研究人员提供最先进的、适用于不同应用的语言模型。
本文是关于新系列 TeleChat LLM 模型(包括 TeleChat2、TeleChat2.5 和 T1)的技术报告,这些模型相比其前身 TeleChat 进行了显著升级。T1 变体专为复杂推理而设计,支持长链式思维 (CoT) 推理,并在数学和编程方面表现出显著改进。相比之下,TeleChat2.5 优先考虑速度,可提供快速推理。值得注意的是,T1-115B 的性能优于 OpenAI 的 o1-mini 和 GPT-4o 等专有模型。我们公开发布 TeleChat2、TeleChat2.5 和 T1,包括具有 35B 和 115B 参数的后训练版本。