⏶17
TTS-VAR:用于视觉自回归生成的测试时缩放框架
发表
由
zhekai chen 提交
作者: Zhekai Chen, Ruihang Chu, Yukang Chen, Shiwei Zhang, Yujie Wei, Yingya Zhang, Xihui Liu
摘要
AI 生成总结
TTS-VAR 是一种用于视觉自回归模型的测试时缩放框架,它通过动态调整批次大小并使用聚类和重采样技术来提高生成质量。扩展视觉生成模型对于现实世界的内容创作至关重要,但需要大量的训练和计算开销。另一方面,测试时缩放因其资源效率和有前景的性能而受到越来越多的关注。在这项工作中,我们提出了TTS-VAR,这是首个用于视觉自回归(VAR)模型的通用测试时缩放框架,将生成过程建模为一个路径搜索问题。为了动态平衡计算效率与探索能力,我们首先在整个因果生成过程中引入了一种自适应递减批处理大小调度。此外,受VAR分层粗粒度到细粒度多尺度生成的启发,我们的框架集成了两个关键组件:(i) 在粗粒度尺度上,我们观察到生成的标记难以评估,可能导致错误地接受劣质样本或拒绝优质样本。注意到粗粒度尺度包含足够的结构信息,我们提出了基于聚类的多样性搜索。它通过语义特征聚类来保持结构多样性,从而能够后续选择具有更高潜力的样本。(ii) 在细粒度尺度上,基于重采样的潜力选择利用潜力分数优先选择有希望的候选者,这些潜力分数被定义为结合多尺度生成历史的奖励函数。在强大的VAR模型Infinity上的实验显示,GenEval分数显著提高了8.7%(从0.69到0.75)。关键洞察表明,早期阶段的结构特征有效影响最终质量,并且重采样的有效性在不同生成尺度上有所不同。代码可在https://github.com/ali-vilab/TTS-VAR获取。
论文:https://arxiv.org/abs/2507.18537
代码:https://github.com/ali-vilab/TTS-VAR