⏶10
UniFork:探索模态对齐以实现统一的多模态理解和生成
发表
由
wenq 提交

作者:
Teng Li, Quanfeng Lu, Lirui Zhao, Hao Li, Xizhou Zhu, Yu Qiao, Jun Zhang, Wenqi Shao
摘要
统一的图像理解和生成已成为多模态人工智能中一个有前景的范式。尽管近期取得了进展,但此类统一模型的最佳架构设计仍是一个开放的挑战。在这项工作中,我们首先分析了用于理解和生成的任务特定专家模型以及当前统一模型的模态对齐行为。我们的分析揭示了一个关键发现:理解任务受益于网络深度中模态对齐的逐步增加,这有助于积累语义信息以更好地理解;相反,生成任务遵循不同的趋势:模态对齐在早期层增加,但在深层中减少以恢复空间细节。这些不同的对齐模式在完全共享的 Transformer 主干中产生了根本性冲突,其中统一的表示流通常会导致两项任务的性能妥协。受此发现启发,我们引入了 UniFork,一种新颖的 Y 形架构,它共享浅层以进行跨任务表示学习,同时在深层采用任务特定分支以避免任务干扰。这种设计有效地平衡了共享学习和任务专业化。通过大量的消融实验,我们证明 UniFork 始终优于传统的完全共享 Transformer 架构,并且达到了与任务特定模型相当或更好的性能。
代码可在以下位置找到:https://github.com/tliby/UniFork