⏶46
多模态提示优化:为什么不利用多种模态来优化 MLLMs
发表
由
Yumin Choi 提交
作者:
Yumin Choi,
Dongki Kim, Jinheon Baek, Sung Ju Hwang
摘要
AI 生成总结
多模态提示优化器 (MPO) 将提示优化扩展到处理多种数据类型,在各种应用中提高了性能,优于仅文本的方法。大型语言模型(LLMs)已取得了显著的成功,其多模态扩展(MLLMs)进一步解锁了跨图像、视频和其他非文本模态的能力。然而,尽管发生了这种转变,旨在减少手动提示制作负担并最大化性能的提示优化方法仍然局限于文本,最终限制了MLLMs的全部潜力。受此差距的启发,我们引入了多模态提示优化这一新问题,该问题将提示优化的先前定义扩展到由文本和非文本提示对定义的多模态空间。为了解决这个问题,我们提出了多模态提示优化器(MPO),这是一个统一的框架,它不仅通过对齐保持更新来执行多模态提示的联合优化,而且还利用早期评估作为基于贝叶斯的选择策略中的先验来指导候选提示的选择过程。通过在超越文本的各种模态(如图像、视频甚至分子)上的广泛实验,我们证明MPO的性能优于领先的仅文本优化方法,从而将多模态提示优化确立为实现MLLMs潜力的关键一步。
我们提出了多模态提示优化问题,并提出了多模态提示优化器,以挖掘多模态大型语言模型超越文本的全部潜力。