⏶12
通过分数最大化的连续视觉自回归生成
发表
由
Chenze Shao 提交
作者:
Chenze Shao, Fandong Meng, Jie Zhou
摘要
传统观点认为自回归模型用于处理离散数据。当应用于连续模态(如视觉数据)时,视觉自回归建模 (VAR) 通常诉诸基于量化的方法将数据转换为离散空间,但这会引入显著的信息损失。为了解决这个问题,我们引入了一个连续 VAR 框架,该框架无需矢量量化即可实现直接的视觉自回归生成。其底层理论基础是严格 proper 评分规则,这些规则提供了强大的统计工具,能够评估生成模型对真实分布的近似程度。在此框架内,我们只需选择一个严格 proper 评分并将其设定为训练目标进行优化。我们主要探索了一类基于能量评分的训练目标,这类目标是无似然的,因此克服了在连续空间中进行概率预测的困难。之前关于连续自回归生成的工作,如 GIVT 和扩散损失,也可以使用其他严格 proper 评分从我们的框架中推导出来。源代码:https://github.com/shaochenze/EAR。
一个用于连续视觉自回归生成的原则性框架,在理论上以严格适当的评分规则为基础。 论文:https://arxiv.org/pdf/2505.07812 代码:https://github.com/shaochenze/EAR