⏶7
针对交错图像-文本生成的高质量数据集和可靠评估
发表
由
kaipeng 提交
作者:
Yukang Feng, Jianwen Sun,
Chuanhao Li, Zizhen Li, Jiaxin Ai,
Fanrui Zhang, Yifan Chang, Sizhuo Zhou,
Shenglin Zhang, Yu Dai,
Kaipeng Zhang

摘要
大型多模态模型(LMMs)的最新进展显著改善了多模态理解和生成。然而,这些模型在生成紧密交织的图像-文本输出方面仍面临挑战,这主要是由于当前训练数据集的规模、质量和指令丰富度有限。为了解决这个问题,我们引入了InterSyn,这是一个使用我们的自评估与迭代改进(SEIR)方法构建的大规模多模态数据集。InterSyn的特点是多轮、指令驱动的对话,其中包含紧密交织的图像-文本响应,提供了丰富的对象多样性和严格的自动化质量改进,使其非常适合训练下一代指令遵循型LMMs。此外,为了解决缺乏能够评估交织多模态输出的可靠评估工具的问题,我们引入了SynJudge,一个自动评估模型,旨在从四个维度定量评估多模态输出:文本内容、图像内容、图像质量和图像-文本协同。实验研究表明,与没有改进的相同过程相比,SEIR方法显著提高了数据集质量。此外,在InterSyn上训练的LMMs在所有评估指标上都实现了统一的性能提升,证实了InterSyn对推进多模态系统的实用性。

评论
论文提交者