⏶12
从 LLM 自适应的问题难度分级的角度,重新思考高质量 CoT 数据的生成
发表
由
Qianjin Yu 提交
作者:
Qianjin Yu, Keyu Wu, Zihan Chen,
Chushu Zhang,
Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du,
Kunlin Liu, Yurui Zhu

摘要
近期,DeepSeek-R1 (671B) (DeepSeek-AI 等人,2025) 在复杂任务中展示了其卓越的推理能力,并公开发布了其方法论。这为激发小型大语言模型 (LLM) 的推理能力提供了潜在的高质量思维链 (CoT) 数据。为了为不同的 LLM 生成高质量的 CoT 数据,我们寻求一种高效的方法来生成具有 LLM 自适应问题难度级别的高质量 CoT 数据。首先,我们根据 LLM 本身的推理能力对问题进行难度分级,并构建一个 LLM 自适应问题数据库。其次,我们根据问题难度级别的分布对问题数据库进行采样,然后使用 DeepSeek-R1 (671B) (DeepSeek-AI 等人,2025) 生成相应的高质量 CoT 数据及正确答案。借助构建具有 LLM 自适应难度级别的 CoT 数据,我们显著降低了数据生成成本,并提高了模型监督微调 (SFT) 的效率。最后,我们在复杂的数学竞赛和代码生成任务领域验证了所提出方法的有效性和通用性。值得注意的是,仅凭 2k 条高质量的数学 CoT 数据,我们的 ZMath-32B 在数学推理任务上超越了 DeepSeek-Distill-32B。同样,仅凭 2k 条高质量的代码 CoT 数据,我们的 ZCode-32B 在代码推理任务上超越了 DeepSeek-Distill-32B。
评论
论文作者
论文提交者
概述
最近,中兴通讯(ZTE)AIM DeepDive团队提出了一种基于LLM自适应问题难度分级的高质量思维链(CoT)数据生成方法,显著提升了LLM的推理能力。借鉴理查德·萨顿(Richard Sutton)近期关于经验是“真正智能的关键”的经验主义论断,该论文中的自适应难度分级可被视为LLM内化经验的过程。😀
相关数据和模型如下:
32BLLMAdaptiveMath_data
LLM-Adaptive-CoT-Code-data
LLM-Adaptive-ZMath-model-32B
[🤗 LLM-Adaptive-ZMath-model-32B]
LLM-Adaptive-ZCode-model-32B
中兴通讯(ZTE)AIM DeepDive团队提出了一种基于LLM自适应问题难度分级的高质量思维链(CoT)数据生成方法,显著提升了LLM的推理能力。借鉴理查德·萨顿(Richard Sutton)近期关于经验是“真正智能的关键”的经验主义论断,该论文中的自适应难度分级可被视为LLM内化经验的过程。😀