OPUS:在大语言模型预训练的每一次迭代中实现高效且原则性的数据选择

发表
Xuan OuyangXuan Ouyang 提交
作者: WangShaobo Wang, Xuan OuyangXuan Ouyang, Tianyi XuTianyi Xu, Yuzheng Hu, Jialin Liu, Guo Chen, Tianyu Zhang, Junhao Zheng, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang

摘要

AI 生成总结
OPUS 是一个动态数据选择框架,通过在稳定的代理衍生目标空间中基于优化器诱导的更新投影对候选数据进行评分,从而提高预训练效率,在减少计算开销的同时实现卓越性能。
随着高质量公共文本趋于枯竭(即“数据墙”现象),预训练正从追求更多 Token 转向追求更好的 Token。然而,现有方法要么依赖忽略训练动态的启发式静态过滤器,要么使用基于原始梯度的动态但与优化器无关的准则。我们提出了 OPUS(优化器诱导的投影效用选择),这是一个在优化器诱导的更新空间中定义效用的动态数据选择框架。OPUS 通过将受现代优化器调节的候选数据有效更新投影到源自稳定、同分布代理的靶向方向上进行评分。为确保可扩展性,我们采用 Ghost 技术结合 CountSketch 以提高计算效率,并使用玻尔兹曼采样确保数据多样性,仅产生 4.7% 的额外计算开销。OPUS 在不同语料库、质量层级、优化器和模型规模上均取得了显著成果。在 FineWeb 和 FineWeb-Edu 上使用 30B Token 预训练 GPT-2 Large/XL 时,OPUS 的表现优于工业级基准,甚至超过了全量 200B Token 的训练效果。此外,当与工业级静态过滤器结合时,即使使用较低质量的数据,OPUS 也能进一步提升预训练效率。此外,在 SciencePedia 上对 Qwen3-8B-Base 进行持续预训练时,OPUS 仅使用 0.5B Token 就达到了优于全量 3B Token 训练的性能,证明了其在专业领域显著的数据效率提升。
查看 arXiv 页面查看 PDF

评论

Xuan OuyangXuan Ouyang
论文作者
论文提交者

在本文中,我们认为大语言模型(LLM)预训练正进入“数据墙”阶段,即现成的高质量公开文本趋于枯竭,因此进展必须从追求更多 token 转向在正确的时间选择更好的 token。虽然现有的大多数流水线要么 (i) 采用静态的、与训练无关的质量过滤器,要么 (ii) 使用在原始梯度空间中定义的动态选择标准,但现代 LLM 实际上是使用像 AdamW 或 Muon 这样具有自适应优化器的模型进行训练的,其预处理会重塑有效的更新方向——这导致“我们如何对数据评分”与“训练如何真实更新模型”之间存在根本性的不匹配。为了弥补这一差距,我们推出了 OPUS(优化器诱导的投影效用选择),这是一个动态选择框架,直接在优化器诱导的更新空间中定义数据效用:如果一个样本的优化器整形有效更新与稳定、高质量目标分布(我们的代理)的下降方向一致,那么该样本就是有价值的。

image

具体而言,OPUS 通过一个原则性目标、一个可扩展的估计器和一个保持多样性的选择规则来实现这一想法。我们的主要贡献包括:(1) 一种用于动态选择的优化器感知效用,具有 AdamW 和 Muon 下有效更新方向的闭式近似,使评分与真实的训练几何结构保持一致;(2) BENCH-PROXY,一种分布内代理构建方法,从预训练语料库中检索与基准对齐的样本以稳定目标方向;(3) 使用 Ghost 技术 + CountSketch 投影的可扩展效用估计,以避免逐样本的梯度实例化;(4) 带有冗余控制的玻尔兹曼采样,以防止非平稳流下的多样性崩溃。实证研究表明,OPUS 提供了强大的数据/计算效率:报告显示选择仅增加约 4.7% 的额外计算开销,同时在不同数据集、优化器和规模上取得了巨大收益——包括准确率的提升(在 10 个基准测试中平均提升 +2.2%,并在一个重点设置中减少了 8 倍计算量),优于工业界的静态/动态基准线,甚至在多个制度下匹配或超过了更长 token 的训练效果。

Mishig DavaadorjMishig Davaadorj
OPUS 主要结果
概述

OPUS(优化器诱导的投影效用选择)是一个用于 LLM 预训练的动态数据选择框架,它将数据选择与优化器的实际更新几何对齐(支持 AdamW 和 Muon 优化器)。它以极低的计算开销实现了卓越的数据效率。

关键定量结果
1. 从零开始预训练 (FineWeb, 30B tokens)

图 1 和表 3:在不同模型规模和优化器下,OPUS 的表现均优于所有计算量匹配的基准线:

  • GPT-2 XL (Muon):平均准确率达到 41.75%,而随机选择为 40.29%(提升 1.46 个百分点),甚至优于使用两倍 token 的 60B-token 随机基准线 (41.29%)
  • GPT-2 Large (AdamW):达到 41.43%,而随机选择为 39.29%(提升 2.14 个百分点)。
  • 跨优化器一致性:OPUS 在 Muon(矩阵预处理)和 AdamW(对角线预处理)下均实现了最佳的计算匹配性能,验证了优化器感知选择的重要性。
2. 对数据质量的鲁棒性 (FineWeb-Edu)

表 4:即使在使用较低质量的数据时,OPUS 也表现出显著的效率:
- 当从 中等质量数据(评分 3) 中进行选择时,OPUS 达到或超过了在 高质量数据(评分 4-5) 上训练的静态基准线。
- GPT-2 XL (Muon):OPUS 在从评分 3 的数据中选择时达到了 44.99% 的平均准确率,优于所有在更优的评分 4/5 分区上训练的基准线(最佳基准线为 42.59%)。

3. 持续预训练效率

图 5 和图 6:在 SciencePedia 数据集上对 Qwen3-8B-Base 进行持续预训练:
- OPUS 实现了 6 倍数据效率:仅使用 0.5B token,OPUS 在科学基准测试(OlympicArena 和 SciAssess)上的表现就优于使用 3B token 的全量训练。
- 在专业领域(物理、化学、生物、医学、材料科学)表现卓越。

4. 计算效率

图 7
- 开销:与随机选择相比,仅增加 4.7% 的额外计算成本。
- 相比之下,朴素的动态选择实现会导致 超过 3.5 倍的减速
- 通过 Ghost 技术 + CountSketch 投影实现。

对比性能
与静态方法对比

OPUS 始终优于工业级静态过滤器:
- QuRating, DSIR, DCLM-FastText, FineWeb-Edu, UltraFineweb(表 3,表 4)
- 静态方法受限于与训练无关的启发式规则;OPUS 则能适应模型状态。

与动态方法对比
  • High-PPL(基于困惑度):OPUS 的平均准确率高出约 2%。
  • GREATS:OPUS 在具备更强可扩展性的同时表现更优(GREATS 假设 SGD 几何;OPUS 正确处理自适应优化器)。
消融实验见解

表 7 和表 8
- 玻尔兹曼采样 (温度 τ=0.9) 优于贪婪 top-k 选择 (41.75% vs. 40.49%),防止了多样性崩溃。
- Bench-Proxy(基准对齐代理)优于标准代理 (41.75% vs. 41.03%)。
- 对超参数具有鲁棒性:适用于各种缓冲区大小 (16-64) 和投影维度 (4096-16384)。

定性分析

附录 A:与以下方法相比,OPUS 选择的文档组合更多样化(教学内容 + 通用网页文本):
- High-PPL:集中在高损失但可能有噪声的样本上。
- QuRating:极端偏好“教育性”模式。
- 静态过滤器:无法适应训练动态的固定启发式规则。

总结

OPUS 在 GPT-XL 上实现了 8 倍的计算减减,同时比随机选择提高了 2.2% 的准确率。它是第一种能够正确考虑现代优化器几何形状(AdamW、Muon)的动态选择方法,在每次训练迭代中实现了原则性、可扩展且多样化的数据选择,且仅有 4.7% 的开销