ViStoryBench:故事可视化综合基准套件

发表
Wei ChengWei Cheng 提交
作者: Cailin Zhuang, Ailin Huang, Wei ChengWei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang YuGang Yu, Chi Zhang

摘要

故事可视化旨在生成一系列视觉连贯的图像,与给定的叙事和参考图像对齐。随着生成模型的最新进展,故事可视化已取得显著进步。为了进一步提升故事可视化框架在真实世界场景中的性能,我们引入了一个全面的评估基准——ViStoryBench。我们收集了一个多样化的数据集,涵盖了各种故事类型和艺术风格,确保模型在多个维度上得到评估,例如不同情节(例如喜剧、恐怖)和视觉美学(例如动漫、3D渲染)。ViStoryBench 经过精心策划,以平衡叙事结构和视觉元素,其故事包含单主角和多主角,旨在测试模型保持角色一致性的能力。此外,它还包括复杂的情节和精细的世界构建,以挑战模型生成准确视觉效果的能力。为了确保全面的比较,我们的基准纳入了广泛的评估指标,评估关键方面。这种结构化、多方面的框架使研究人员能够彻底识别不同模型的优点和缺点,从而促进有针对性的改进。
查看 arXiv 页面查看 PDF

评论