⏶2
RePIC:面向多模态语言模型的个性化强化后训练
发表
由
Yeongtak 提交
作者: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
摘要
最近的多模态大型语言模型(MLLMs)即使在高质量的图像字幕上进行训练,也常常难以生成个性化的图像字幕。在这项工作中,我们观察到这些局限性在现有的基于后训练的MLLM个性化方法中依然存在。具体而言,尽管这些模型通过监督微调(SFT)使用大规模字幕数据进行了后期调整,但它们在现实世界场景中(例如多概念图像字幕)仍然经常无法生成忠实的描述。然而,为这种复杂场景获取大规模、高质量的字幕既昂贵又困难。为了解决SFT的数据中心性质,我们提出了一种基于强化学习(RL)的后训练框架。据我们所知,这是第一个基于RL的后训练MLLM以实现个性化图像字幕的方法。我们的方法显著增强了MLLMs的视觉识别和个性化生成能力,并且始终优于现有的基于SFT的基线方法,尤其是在具有挑战性的多概念图像字幕任务中。
项目页面: https://github.com/oyt9306/RePIC