⏶19
SRUM:统一多模态模型的细粒度自我奖励
发表
由
Weiyang Jin 提交
作者:
Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
摘要
近期,在统一多模态模型(UMM)方面取得了显著进展,该模型将视觉语言生成和理解能力集成在同一个框架内。然而,模型强大的视觉理解能力往往无法转移到其视觉生成能力上,这之间存在显著的差距。一个模型可能根据用户指令正确地理解图像,却无法从文本提示生成忠实的图像。这种现象直接引出了一个引人注目的问题:模型是否可以通过利用其理解模块来奖励其生成模块来实现自我改进?为了弥合这一差距并实现自我改进,我们推出了 SRUM,这是一个可以直接应用于现有各种设计的 UMM 的自奖励后训练框架。SRUM 创建了一个反馈循环,其中模型的自身理解模块充当内部“评估器”,在不要求额外人工标注数据的情况下,提供纠正信号来改进其生成模块。为确保这种反馈的全面性,我们设计了一个全局-局部双奖励系统。为应对图像固有的结构复杂性,该系统提供了多尺度指导:全局奖励确保了整体视觉语义和布局的正确性,而局部奖励则细化了细粒度的、对象级别的保真度。SRUM 带来了强大的能力,并在 T2I-CompBench 上将性能从 82.18 提升到 88.37,在 T2I-ReasonBench 上将性能从 43.82 提升到 46.75,显示出强大的泛化能力。总而言之,我们的工作建立了一个强大的新范式,使 UMM 的理解模块能够通过自我奖励来指导和增强其自身的生成能力。

一种训练后框架,可创建成本效益高、自我迭代的优化循环。SRUM 迫使模型的理解组件增强其生成组件,以实现更好的组合性、推理知情和知识知情的生成。