LaMP-Cap:结合多模态图表配置文件的个性化图表字幕生成

发表
Franck DernoncourtFranck Dernoncourt 提交
作者: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck DernoncourtFranck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang

摘要

图标题对于帮助读者理解和记住图的关键信息至关重要。许多模型已被开发用于生成这些标题,帮助作者更轻松地撰写高质量标题。然而,作者几乎总是需要修改通用AI生成的标题,以匹配其写作风格和领域风格,这凸显了个性化的需求。尽管语言模型的个性化(LaMP)取得了进展,但这些技术通常侧重于纯文本设置,很少解决输入和配置文件都是多模态的场景。本文介绍了LaMP-Cap,一个用于多模态图配置文件个性化图标题生成的数据集。对于每个目标图,LaMP-Cap不仅提供所需的输入(例如图图像),还提供同一文档中的最多三个其他图——每个图都带有其图像、标题和提及图的段落——作为表征上下文的配置文件。与四个LLM的实验表明,使用配置文件信息始终有助于生成更接近原始作者撰写标题的标题。消融研究表明,配置文件中的图像比提及图的段落更有帮助,这凸显了使用多模态配置文件而非纯文本配置文件的优势。
查看 arXiv 页面查看 PDF

评论

Franck DernoncourtFranck Dernoncourt
论文作者
论文提交者
此评论已隐藏。