DiffusionBlocks:通过基于分数的扩散进行生成模型的块级训练

发表
Makoto ShingMakoto Shing 提交
作者: Makoto ShingMakoto Shing, Takuya AkibaTakuya Akiba

摘要

使用端到端反向传播训练大型神经网络会产生显著的内存瓶颈,限制了尖端人工智能研究的可及性。我们提出了 DiffusionBlocks,这是一种新颖的训练框架,将神经网络块解释为在连续时间扩散过程中执行去噪操作。通过将网络划分为可独立训练的块,并根据相等累积概率质量优化噪声水平分配,我们的方法在生成任务中实现了显著的内存效率,同时保持了与传统反向传播相当的竞争力。图像生成和语言建模任务的实验表明,内存减少量与块的数量成正比,同时实现了卓越的性能。DiffusionBlocks 为在有限计算资源下普及大规模神经网络训练提供了有前景的途径。
查看 arXiv 页面查看 PDF
DiffusionBlocks:通过基于分数的扩散进行生成模型的块级训练

评论

Makoto ShingMakoto Shing
论文作者
论文提交者

我们提出了 DiffusionBlocks,这是一种新颖的训练框架,通过将神经网络块解释为连续时间扩散过程中的去噪操作,从而消除了端到端反向传播。