⏶5
技术报告:Q 编程语言的全栈微调
发表
由
Aritra Roy Gosthipaty 提交

作者:
Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
摘要
尽管大型语言模型的能力日益增强,但期望它们在互联网上代表性不足的任务中表现出色仍然是不现实的。将大型语言模型应用于专业领域,特别是在小众编程语言和私有领域中,仍然充满挑战且大部分尚未解决。在这项工作中,我们通过提出一种全面、开源的方法来解决这一空白,该方法旨在使大型语言模型适应Q编程语言。Q语言是量化金融中的常用工具,与Python、C、Java等“主流”语言相比,它在互联网上的存在感要低得多,因此通用人工智能模型不擅长处理它。我们为Q语言引入了一个新的Leetcode风格的评估数据集,在该数据集上对主要前沿模型进行了基准测试,然后进行预训练、监督微调和强化学习,以训练一套基于Qwen-2.5系列(涵盖五种参数规模:1.5B、3B、7B、14B、32B)的推理和非推理模型。我们最好的模型在我们的Q基准测试中达到了59%的pass@1准确率,超过了表现最好的前沿模型Claude Opus-4 29.5%。此外,所有模型,甚至我们1.5B的模型,在该任务上都优于GPT-4.1。除了发布模型、代码和数据外,我们还提供了数据集构建、模型预训练、监督微调和强化学习的详细蓝图。我们的方法具有广泛适用性,我们讨论了如何将这些技术扩展到其他任务,包括那些评估可能依赖于软性或主观信号的任务。
摘要:尽管大型语言模型的能力越来越强,但期望它们在互联网上代表性不足的任务中表现出色仍然是不合理的。将 LLM 用于专门应用,特别是在小众编程语言和私有领域,仍然具有挑战性且大部分尚未解决。在这项工作中,我们通过提出一种全面、开源的方法来解决这一差距,该方法用于将 LLM 适应于 Q 编程语言,Q 语言是量化金融中流行的工具,与 Python、C、Java 和其他“主流”语言相比,它在互联网上的存在要少得多,因此不是通用 AI 模型的强项。我们引入了一个新的 Q 语言 Leetcode 风格评估数据集,在该数据集上对主要前沿模型进行了基准测试,然后进行预训练、监督微调和强化学习,以训练一套基于 Qwen-2.5 系列的推理和非推理模型,涵盖五种参数大小(1.5B、3B、7B、14B、32B)。我们最好的模型在我们的 Q 基准测试中达到了 59% 的 pass@1 准确率,超过了表现最佳的前沿模型 Claude Opus-4 29.5%。此外,所有模型,甚至我们的 1.5B 模型,在这项任务中都优于 GPT-4.1。除了发布模型、代码和数据,我们还提供了数据集构建、模型预训练、监督微调和强化学习的详细蓝图。我们的方法具有广泛的适用性,我们讨论了如何将这些技术扩展到其他任务,包括那些评估可能依赖于软性或主观信号的任务。