视觉自回归模型在推理时间扩展方面优于扩散模型

发表
onurcanonurcan 提交
作者: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos

摘要

AI 生成总结
离散视觉自回归模型中的束搜索比连续扩散模型中的搜索更能有效地增强文本到图像生成,这突显了架构的重要性超过了规模。
尽管通过搜索进行的推理时缩放已彻底改变了大型语言模型,但将这些进步应用于图像生成却被证明是困难的。 最近将搜索策略应用于连续扩散模型的尝试显示出有限的益处,简单的随机采样通常表现最佳。我们 证明了视觉自回归模型的离散、顺序性质能够实现有效的图像生成搜索。我们表明,束搜索 显著改进了文本到图像的生成,使一个 2B 参数的自回归模型在基准测试中优于一个 12B 参数的扩散模型。 系统的消融研究表明,这种优势来自于 离散的 token 空间,它允许早期剪枝和计算重用,我们的验证器分析突出了速度和推理能力之间的权衡。 这些发现表明,模型架构,而不仅仅是规模,对于视觉生成中的推理时优化至关重要。
查看 arXiv 页面查看 PDF

评论

onurcanonurcan
论文提交者

这项工作展示了一个 2B 自回归模型,通过束搜索生成比 12B 扩散模型更好的组合图像,证明了在高效推理时搜索方面,架构优于规模。