YoChameleon: 个性化视觉与语言生成

发表
AKAK 提交
作者: Thao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae LeeYong Jae Lee, Yuheng LiYuheng Li

摘要

大型多模态模型(例如 GPT-4、Gemini、Chameleon)已发展成为拥有数百万用户的强大工具。然而,它们仍然是通用模型,缺乏对特定用户概念的个性化知识。此前的工作已经探索了文本生成的个性化,但这些方法如何适应新的模态(例如图像生成)仍不清楚。在本文中,我们介绍了 Yo'Chameleon,这是首次尝试研究大型多模态模型的个性化。针对特定概念的 3-5 张图像,Yo'Chameleon 利用软提示调优(soft-prompt tuning)嵌入主题特定信息,以 (i) 回答关于该主题的问题,以及 (ii) 重现像素级细节,从而在新的上下文中生成该主题的图像。Yo'Chameleon 通过 (i) 一种自提示优化机制(self-prompting optimization mechanism)来平衡跨多种模态的性能,以及 (ii) 一种“软正样本”(soft-positive)图像生成方法来增强少样本设置下的图像质量。
查看 arXiv 页面查看 PDF

评论