⏶3
TeleMath:电信数学问题解决中大型语言模型基准
发表
由
Vincenzo Colle 提交

作者:
Vincenzo Colle, Mohamed Sana,
Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah


摘要
人工智能在电信领域的日益普及,引发了人们对大型语言模型(LLM)解决领域特定、数学密集型任务能力的兴趣。尽管最近的进展提高了LLM在通用数学推理方面的表现,但它们在信号处理、网络优化和性能分析等专业领域中的有效性仍未得到充分探索。为了弥补这一空白,我们推出了TeleMath,这是第一个专门设计用于评估LLM解决电信领域数值数学问题的基准数据集。TeleMath包含500个问答(QnA)对,涵盖了电信领域的广泛主题。本文概述了所提出的问答生成流程,该流程从领域专家精心制作的问题种子开始。对各种开源LLM的评估显示,专门为数学或逻辑推理设计的最新模型在TeleMath上取得了最佳表现。相比之下,通用模型,即使是那些参数数量庞大的模型,也往往难以应对这些挑战。我们已发布数据集和评估代码,以方便结果复现并支持未来的研究。
我们推出TeleMath,这是一个新颖的基准数据集,旨在评估大型语言模型(LLM)在电信领域的数学推理能力。其核心是一个领域无关的合成数据生成框架,能将一个小型种子数据集扩展为500个多样化且具有挑战性的问题。这种灵活的管道易于适应其他领域,促进了对专业化AI能力更广泛的研究。TeleMath已公开发布,以鼓励电信领域专用LLM的进一步发展。