⏶52
基于能量的Transformer是可扩展的学习者和思考者
发表
由
Aman Chadha 提交

作者:
Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Peixuan Han, Hyeonjeong Ha,
Aman Chadha, Yilun Du, Heng Ji, Jundong Li, Tariq Iqbal

摘要
类比于人类的系统 2 思维,推理时计算技术最近变得流行,以提高模型性能。然而,大多数现有方法都存在一些局限性:它们是特定于模态的(例如,仅在文本中工作),特定于问题的(例如,可验证的领域,如数学和编码),或者需要在无监督预训练之上进行额外的监督/训练(例如,验证器或可验证的奖励)。在本文中,我们提出了一个问题:“是否有可能推广这些系统 2 思维方法,并开发仅通过无监督学习就能学会思考的模型?”有趣的是,我们发现答案是肯定的,通过学习显式验证输入和候选预测之间的兼容性,然后将预测问题重新定义为关于该验证器的优化。具体来说,我们训练基于能量的 Transformer(EBT)-- 一种新的基于能量的模型(EBM)-- 来为每个输入和候选预测对分配一个能量值,从而可以通过基于梯度下降的能量最小化来进行预测,直到收敛。在离散(文本)和连续(视觉)模态中,我们发现 EBT 在训练期间比主要的 Transformer++ 方法扩展得更快,在数据、批量大小、参数、FLOP 和深度方面的扩展率提高了高达 35%。在推理过程中,EBT 通过系统 2 思维在语言任务上的性能比 Transformer++ 提高了 29%,并且 EBT 在图像去噪方面优于 Diffusion Transformer,同时使用的前向传递次数更少。此外,我们发现 EBT 在大多数下游任务中都比现有模型取得了更好的结果,即使预训练性能相同或更差,这表明 EBT 比现有方法具有更好的泛化能力。因此,EBT 是一个很有前途的新范例,可以扩展模型的学习和思考能力。
评论
论文作者
感谢你的提问 @SSamDav --- 是的,EBMs 是 DEQ 的一种泛化,其中 DEQ 可以被看作是最小化一个隐式的能量函数直到收敛!像我们这样拥有一个更显式的 EBM,允许具备诸如自验证(生成 n 个样本并选择能量最低、最好的样本)等能力。我们在论文中有一个关于隐式与显式 EBMs 的章节,名为“基于能量模型的类型” (https://arxiv.org/pdf/2507.02092#page=41.09)。
最大的区别在于动力学公式,其中 DEQs 使用定点求解器来找到局部最小值,而我们训练的 EBMs 仅使用梯度下降。 虽然我们没有明确地与 DEQs 进行比较,但我一般的直觉是,这种更简单的梯度下降方法不太容易出现不稳定问题,并且更灵活,这使得 EBTs 能够很好地扩展,正如我们所展示的那样。
基于能量的 Transformer (EBT) 使用可扩展的、无监督的基于能量的优化框架将系统 2 思维推广到任意模式和问题类型,该框架结合了验证、不确定性建模和动态计算分配。
通过基于能量的优化实现统一的系统 2 思维: EBT 将推理视为对学习到的验证器函数进行迭代能量最小化,从而实现动态计算、不确定性建模以及跨离散和连续模式的显式预测验证,所有这些都来自无监督的预训练。
可扩展的基于 Transformer 的 EBM 架构: EBT 实现了自回归(GPT 风格)和双向(BERT/DiT 风格)Transformer 变体,在参数、深度、数据、批大小和 FLOPs 方面实现了卓越的预训练扩展——超越了 Transformer++ 配方。
通过梯度下降和 N 中最佳采样进行推理时思考: EBT 在推理时支持类似推理的行为,使用两种方法:更多的梯度下降步骤(“思考更长时间”)和从多个候选项中选择能量最低的预测(“自我验证”),两者都产生显着收益,尤其是在超出分布的数据上。