⏶18
WirelessMathLM:使用强化学习为无线通信中的 LLM 教授数学推理
发表
由
XinLi 提交

作者:
Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen

摘要
AI 生成总结
WirelessMathLM 是一个使用领域特定强化学习训练的紧凑模型,在无线数学问题上取得了高精度,并能很好地迁移到通用数学基准测试。大型语言模型(LLM)在一般数学推理方面表现出色,但在专业技术数学方面却灾难性地失败。在无线通信领域,问题需要精确地处理信息论界限、优化约束和信号处理公式,即使是最先进的模型也难以达到称职的性能。我们提出了WirelessMathLM,证明了紧凑型模型(0.5B-7B参数)可以通过具有可验证奖励的领域特定强化学习来匹配甚至超过更大的模型。我们的关键见解是,无线数学问题具有一个独特的属性——可验证的正确性——这使得在没有人为反馈的情况下能够进行有效的强化学习。我们构建了WirelessMathBench-XL,这是一个包含来自970篇论文的4027个问题的综合基准。使用具有二进制验证奖励的组相对策略优化(GRPO),我们直接从基础检查点训练模型,而无需监督预热。我们的7B模型在WirelessMathBench-XL上达到了39.5%的准确率,接近GPT-4o(40.4%),而使用的参数量却是DeepSeek-R1(671B,57.4%)的1/100。值得注意的是,GRPO训练几乎使所有模型规模下的性能翻倍(0.5B +11%,3B +103%,7B +81%),并对一般数学基准产生了积极的迁移——在MATH、Minerva-Math、OlympiadBench、AMC和AIME上,我们的模型平均获得了+8.4分,而没有在这些任务上进行任何训练。
⭐ ⭐ ⭐