规模化图像和视频生成:通过测试时演化搜索

发表
Runze LiuRunze Liu 提交
作者: haoran heHaoran He, Jiajun Liang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Ling Pan

摘要

随着模型预训练期间扩展计算(数据和参数)的边际成本持续大幅增加,测试时缩放(TTS)已成为一种很有前景的方向,通过在推理时分配额外的计算来提高生成模型的性能。虽然测试时缩放在多种语言任务中取得了显著成功,但在理解图像和视频生成模型(基于扩散或基于流的模型)的测试时缩放行为方面仍然存在明显的空白。尽管最近的工作已经开始探索视觉任务的推理时策略,但这些方法面临着关键的局限性:受限于特定任务领域,可扩展性差,或陷入奖励过度优化而牺牲样本多样性。在本文中,我们提出了进化搜索(EvoSearch),这是一种新颖、通用且高效的测试时缩放方法,可以有效地增强扩散模型和流模型在图像和视频生成方面的可扩展性,而无需额外的训练或模型扩展。EvoSearch 将扩散模型和流模型的测试时缩放重新构想为一个进化搜索问题,利用生物进化的原理来有效地探索和优化去噪轨迹。通过结合精心设计的选择和变异机制,这些机制针对随机微分方程去噪过程进行了调整,EvoSearch 迭代地生成更高质量的后代,同时保持群体多样性。通过在扩散和流架构上针对图像和视频生成任务进行的广泛评估,我们证明了我们的方法始终优于现有方法,实现了更高的多样性,并对未见的评估指标表现出强大的泛化能力。我们的项目可在网站 https://tinnerhrhe.github.io/evosearch 获取。
查看 arXiv 页面查看 PDF

评论