⏶63

MachineLearningLM：在数百万个合成表格预测任务上继续预训练语言模型，实现上下文学习的规模化

09月08日发表

09月12日由 Haoyu Dong 提交

作者: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke

摘要

AI 生成总结

MachineLearningLM 通过使用合成机器学习任务进行持续预训练，增强了通用大型语言模型（LLM）的强大上下文机器学习能力，从而在无需特定任务训练的情况下，在各种领域中取得了高性能。

大型语言模型（LLM）拥有广泛的世界知识和强大的通用推理能力，但它们在标准机器学习（ML）任务上难以从大量的上下文示例中学习，即，纯粹通过上下文学习（ICL）而非梯度下降来利用多示例演示。我们引入了 MachineLearningLM，这是一个可移植的继续预训练框架，它能够使通用 LLM 具备强大的上下文 ML 能力，同时保留其用于更广泛聊天工作流程的通用知识和推理能力。我们的预训练过程从数百万个结构因果模型（SCM）中合成 ML 任务，涵盖高达 1,024 个示例数。我们从一个随机森林教师开始，将基于树的决策策略提炼到 LLM 中，以增强数值建模的鲁棒性。所有任务都使用一种令牌效率高的提示进行序列化，从而在上下文窗口中实现了 3 到 6 倍更多的示例，并通过批处理推理实现了高达 50 倍的摊销吞吐量。尽管设置适中（Qwen-2.5-7B-Instruct，LoRA 秩 8），MachineLearningLM 在跨金融、物理、生物和医疗保健领域的分布外表格分类任务上，平均比强大的 LLM 基线（例如 GPT-5-mini）高出约 15%。它展现了一个惊人的多示例缩放定律：随着上下文演示从 8 个增加到 1,024 个，准确率单调增加。在没有任何特定任务训练的情况下，它在数百个示例中达到了随机森林级别的准确率。通用的聊天能力，包括知识和推理，得到了保留：它在 MMLU 上取得了 75.4% 的成绩。

查看 arXiv 页面查看 PDF

MachineLearningLM：在数百万个合成表格预测任务上继续预训练语言模型，实现上下文学习的规模化

Haoyu Dong

论文作者

论文提交者

此评论已隐藏。

Haoyu Dong

论文作者

论文提交者

MachineLearningML：通过持续预训练扩展少样本上下文学习能力

隆重推出 MachineLearningLM——在数百万个合成任务上进行持续预训练 → 强大的少样本上下文学习能力。📈 将样本数从 8 扩展到 1024；与强大的大型语言模型相比，准确率提高 15%；🌲 达到随机森林级别的数值建模能力；🧠 通用知识和推理能力 (MMLU 75.4%)。

很乐意在此回答问题！

Denis Golovkin

你好。我认为这个模型可能是解决一些数据驱动问题的强大工具。但是，论文和 GitHub 代码都专注于使用一些现有数据集评估模型。我真的很想尝试一下，但这需要解析 GitHub 中的一些 shell 脚本和 python 来理解用例和数据处理流程。请问您能否推荐一下，如果我的目标不是评估模型而是使用它，我该如何用真实生活数据示例运行推理？致以敬意，谢谢。

Haoyu Dong

论文作者

论文提交者

感谢您的反馈！我们很快会分享一份关于如何对您自己的数据运行推理的简短指南——应该很简单。在此期间，欢迎提出建议！

Denis Golovkin

即使对于专门训练的 LLM 来说，这可能也不是一件容易的任务，因为“垃圾”可能会引起严重的偏差，因为高质量的预训练数据很可能不包含这种噪声：https://huggingface.co/datasets/CoruNethron/plaindetector

任务是判断垃圾/二进制数据是否包含有意义的英文文本部分（是/否分类）。更难的是，如果有任何有意义的部分，就提取出来，或者回答“否”。

感谢您的支持。

Haoyu Dong

论文作者

论文提交者

感谢分享这个有趣的挑战！虽然它不是一个分类问题，但您仍然可以使用相同的代码来调用不同的模型并改变多样本设置——只需相应地修改评估指标即可。我刚刚上传了 MMLU 风格的评估脚本 🔗 mmlu_eval.py。

我非常想看看模型在多样本条件下在这种非平凡任务上的表现！