⏶63
MachineLearningLM:在数百万个合成表格预测任务上继续预训练语言模型,实现上下文学习的规模化
发表
由
Haoyu Dong 提交

作者:
Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen,
Guolin Ke

摘要
AI 生成总结
MachineLearningLM 通过使用合成机器学习任务进行持续预训练,增强了通用大型语言模型(LLM)的强大上下文机器学习能力,从而在无需特定任务训练的情况下,在各种领域中取得了高性能。大型语言模型(LLM)拥有广泛的世界知识和强大的通用推理能力,但它们在标准机器学习(ML)任务上难以从大量的上下文示例中学习,即,纯粹通过上下文学习(ICL)而非梯度下降来利用多示例演示。我们引入了 MachineLearningLM,这是一个可移植的继续预训练框架,它能够使通用 LLM 具备强大的上下文 ML 能力,同时保留其用于更广泛聊天工作流程的通用知识和推理能力。
我们的预训练过程从数百万个结构因果模型(SCM)中合成 ML 任务,涵盖高达 1,024 个示例数。我们从一个随机森林教师开始,将基于树的决策策略提炼到 LLM 中,以增强数值建模的鲁棒性。所有任务都使用一种令牌效率高的提示进行序列化,从而在上下文窗口中实现了 3 到 6 倍更多的示例,并通过批处理推理实现了高达 50 倍的摊销吞吐量。
尽管设置适中(Qwen-2.5-7B-Instruct,LoRA 秩 8),MachineLearningLM 在跨金融、物理、生物和医疗保健领域的分布外表格分类任务上,平均比强大的 LLM 基线(例如 GPT-5-mini)高出约 15%。它展现了一个惊人的多示例缩放定律:随着上下文演示从 8 个增加到 1,024 个,准确率单调增加。在没有任何特定任务训练的情况下,它在数百个示例中达到了随机森林级别的准确率。通用的聊天能力,包括知识和推理,得到了保留:它在 MMLU 上取得了 75.4% 的成绩。

评论

论文作者
论文提交者
此评论已隐藏。
即使对于专门训练的 LLM 来说,这可能也不是一件容易的任务,因为“垃圾”可能会引起严重的偏差,因为高质量的预训练数据很可能不包含这种噪声:https://huggingface.co/datasets/CoruNethron/plaindetector
任务是判断垃圾/二进制数据是否包含有意义的英文文本部分(是/否分类)。 更难的是,如果有任何有意义的部分,就提取出来,或者回答“否”。
感谢您的支持。

论文作者
论文提交者
感谢分享这个有趣的挑战!虽然它不是一个分类问题,但您仍然可以使用相同的代码来调用不同的模型并改变多样本设置——只需相应地修改评估指标即可。我刚刚上传了 MMLU 风格的评估脚本 🔗 mmlu_eval.py。
我非常想看看模型在多样本条件下在这种非平凡任务上的表现!