Hanfu-Bench:一项关于跨时间文化理解与转译的多模态基准

发表
wenyan liwenyan li 提交
作者: Li ZhouLi Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, wenyan liWenyan Li, Haizhou Li

摘要

文化是一个丰富而动态的领域,它在地理和时间上都在演变。然而,现有关于视觉语言模型(VLMs)在文化理解方面的研究主要强调地理多样性,却常常忽视了关键的时间维度。为了弥补这一差距,我们引入了汉服基准(Hanfu-Bench),这是一个新颖的、由专家策划的多模态数据集。汉服,一种横跨中国古代多个朝代的传统服饰,作为一种代表性文化遗产,反映了中国文化的深刻时间层面,同时在中国当代社会中仍然广受欢迎。汉服基准包含两个核心任务:文化视觉理解和文化图像再创造。前者通过多项选择视觉问答,基于单图像或多图像输入来考察时间文化特征识别,而后者则侧重于通过文化元素继承和现代语境适应,将传统服饰转化为现代设计。我们的评估显示,封闭式 VLM 在文化视觉理解方面表现与非专家相当,但比人类专家落后 10%;而开放式 VLM 则进一步落后于非专家。对于再创造任务,多方面的人工评估表明,表现最佳的模型成功率仅为 42%。我们的基准提供了一个重要的测试平台,揭示了时间文化理解和创造性适应这一新方向上的重大挑战。
查看 arXiv 页面查看 PDF

评论

wenyan liwenyan li
论文作者
论文提交者

关于评估视觉语言模型(VLM)时间-文化理解能力的新基准论文