⏶15
噪声超网络:摊销扩散模型中的测试时间计算
发表
由
Shyamgopal Karthik 提交
作者:
Luca Eyring,
Shyamgopal Karthik, Alexey Dosovitskiy,
Nataniel Ruiz, Zeynep Akata

摘要
测试时缩放的新范式在大型语言模型 (LLMs)(例如推理模型)和生成式视觉模型中取得了显著突破,允许模型在推理期间分配额外的计算量,以有效解决日益复杂的问题。尽管这种方法有所改进,但一个重要的局限性出现了:计算时间的显著增加使得该过程缓慢且不适用于许多应用程序。鉴于这种范式的成功及其日益增长的使用,我们力求保留其优点,同时避免推理开销。在这项工作中,我们提出了一个解决方案,以解决在后训练期间将测试时缩放知识整合到模型中的关键问题。具体来说,我们用一个噪声超网络来调节初始输入噪声,取代了扩散模型中奖励引导的测试时噪声优化。我们提出了一个基于理论的框架,用于通过可处理的噪声空间目标学习这种奖励倾斜的分布,该目标在保持对基础模型的忠实度的同时优化了所需的特性。我们表明,我们的方法以极低的计算成本,恢复了显式测试时优化所带来的大部分质量增益。代码可在 https://github.com/ExplainableML/HyperNoise 获得。
项目页面:https://noisehypernetworks.github.io/