OPUS:在大语言模型预训练的每一次迭代中实现高效且原则性的数据选择
摘要
评论
OPUS(优化器诱导的投影效用选择)是一个用于 LLM 预训练的动态数据选择框架,它将数据选择与优化器的实际更新几何对齐(支持 AdamW 和 Muon 优化器)。它以极低的计算开销实现了卓越的数据效率。
图 1 和表 3:在不同模型规模和优化器下,OPUS 的表现均优于所有计算量匹配的基准线:
- GPT-2 XL (Muon):平均准确率达到 41.75%,而随机选择为 40.29%(提升 1.46 个百分点),甚至优于使用两倍 token 的 60B-token 随机基准线 (41.29%)。
- GPT-2 Large (AdamW):达到 41.43%,而随机选择为 39.29%(提升 2.14 个百分点)。
- 跨优化器一致性:OPUS 在 Muon(矩阵预处理)和 AdamW(对角线预处理)下均实现了最佳的计算匹配性能,验证了优化器感知选择的重要性。
表 4:即使在使用较低质量的数据时,OPUS 也表现出显著的效率:
- 当从 中等质量数据(评分 3) 中进行选择时,OPUS 达到或超过了在 高质量数据(评分 4-5) 上训练的静态基准线。
- GPT-2 XL (Muon):OPUS 在从评分 3 的数据中选择时达到了 44.99% 的平均准确率,优于所有在更优的评分 4/5 分区上训练的基准线(最佳基准线为 42.59%)。
图 5 和图 6:在 SciencePedia 数据集上对 Qwen3-8B-Base 进行持续预训练:
- OPUS 实现了 6 倍数据效率:仅使用 0.5B token,OPUS 在科学基准测试(OlympicArena 和 SciAssess)上的表现就优于使用 3B token 的全量训练。
- 在专业领域(物理、化学、生物、医学、材料科学)表现卓越。
图 7:
- 开销:与随机选择相比,仅增加 4.7% 的额外计算成本。
- 相比之下,朴素的动态选择实现会导致 超过 3.5 倍的减速。
- 通过 Ghost 技术 + CountSketch 投影实现。
OPUS 始终优于工业级静态过滤器:
- QuRating, DSIR, DCLM-FastText, FineWeb-Edu, UltraFineweb(表 3,表 4)
- 静态方法受限于与训练无关的启发式规则;OPUS 则能适应模型状态。
- High-PPL(基于困惑度):OPUS 的平均准确率高出约 2%。
- GREATS:OPUS 在具备更强可扩展性的同时表现更优(GREATS 假设 SGD 几何;OPUS 正确处理自适应优化器)。
表 7 和表 8:
- 玻尔兹曼采样 (温度 τ=0.9) 优于贪婪 top-k 选择 (41.75% vs. 40.49%),防止了多样性崩溃。
- Bench-Proxy(基准对齐代理)优于标准代理 (41.75% vs. 41.03%)。
- 对超参数具有鲁棒性:适用于各种缓冲区大小 (16-64) 和投影维度 (4096-16384)。
附录 A:与以下方法相比,OPUS 选择的文档组合更多样化(教学内容 + 通用网页文本):
- High-PPL:集中在高损失但可能有噪声的样本上。
- QuRating:极端偏好“教育性”模式。
- 静态过滤器:无法适应训练动态的固定启发式规则。
OPUS 在 GPT-XL 上实现了 8 倍的计算减减,同时比随机选择提高了 2.2% 的准确率。它是第一种能够正确考虑现代优化器几何形状(AdamW、Muon)的动态选择方法,在每次训练迭代中实现了原则性、可扩展且多样化的数据选择,且仅有 4.7% 的开销。
在本文中,我们认为大语言模型(LLM)预训练正进入“数据墙”阶段,即现成的高质量公开文本趋于枯竭,因此进展必须从追求更多 token 转向在正确的时间选择更好的 token。虽然现有的大多数流水线要么 (i) 采用静态的、与训练无关的质量过滤器,要么 (ii) 使用在原始梯度空间中定义的动态选择标准,但现代 LLM 实际上是使用像 AdamW 或 Muon 这样具有自适应优化器的模型进行训练的,其预处理会重塑有效的更新方向——这导致“我们如何对数据评分”与“训练如何真实更新模型”之间存在根本性的不匹配。为了弥补这一差距,我们推出了 OPUS(优化器诱导的投影效用选择),这是一个动态选择框架,直接在优化器诱导的更新空间中定义数据效用:如果一个样本的优化器整形有效更新与稳定、高质量目标分布(我们的代理)的下降方向一致,那么该样本就是有价值的。
具体而言,OPUS 通过一个原则性目标、一个可扩展的估计器和一个保持多样性的选择规则来实现这一想法。我们的主要贡献包括:(1) 一种用于动态选择的优化器感知效用,具有 AdamW 和 Muon 下有效更新方向的闭式近似,使评分与真实的训练几何结构保持一致;(2) BENCH-PROXY,一种分布内代理构建方法,从预训练语料库中检索与基准对齐的样本以稳定目标方向;(3) 使用 Ghost 技术 + CountSketch 投影的可扩展效用估计,以避免逐样本的梯度实例化;(4) 带有冗余控制的玻尔兹曼采样,以防止非平稳流下的多样性崩溃。实证研究表明,OPUS 提供了强大的数据/计算效率:报告显示选择仅增加约 4.7% 的额外计算开销,同时在不同数据集、优化器和规模上取得了巨大收益——包括准确率的提升(在 10 个基准测试中平均提升 +2.2%,并在一个重点设置中减少了 8 倍计算量),优于工业界的静态/动态基准线,甚至在多个制度下匹配或超过了更长 token 的训练效果。