⏶33
理解和生成真的能互相促进——还是仅仅共存?
发表
由
linbin 提交

作者: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin,
Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan

摘要
AI 生成总结
一个新颖的框架 UAE 利用强化学习统一了图像到文本和文本到图像的过程,增强了相互理解和生成保真度。本文通过自编码器的视角,提出了一种有见地的范式——将理解作为编码器(I2T),它将图像压缩成文本;将生成作为解码器(T2I),它从文本中重建图像。利用重建保真度作为统一的训练目标,我们强制实现理解和生成过程之间的连贯双向信息流,带来互利的提升。为了实现这一点,我们提出了 UAE,一个新颖的统一多模态学习框架。我们首先使用大规模长上下文图像标题预训练解码器,以捕捉细粒度的语义和复杂空间关系。然后,我们通过强化学习(RL)提出统一的 GRPO,涵盖三个阶段:(1) 冷启动阶段,通过语义重建损失温和地初始化编码器和解码器;(2) 为理解而生成,其中训练编码器生成信息丰富的标题,以最大化解码器的重建质量,增强其视觉理解能力;(3) 为生成而理解,其中细化解码器以从这些标题中重建,迫使其利用每个细节,并改进其长上下文指令遵循和生成保真度。在评估方面,我们提出了 Unified-Bench,这是第一个旨在评估 UMM 统一程度的基准。多模态学习领域出现了一个令人惊讶的“豁然开朗”时刻:随着 RL 的进展,编码器自主生成更具描述性的标题,而解码器同时展现出理解这些复杂描述的深刻能力,从而实现令人惊叹的保真度重建。

🔥🔥🔥理解↔生成可以相互促进——不仅仅是共存!将其构建为一个自编码器(I2T=编码器,T2I=解码器),并使用 Unified-GRPO(RL)进行训练。 🧠🧠🧠结果:编码器写出更丰富的标题,解码器以惊人的保真度进行重建。