⏶3

Hanfu-Bench：一项关于跨时间文化理解与转译的多模态基准

06月02日发表

06月04日由 wenyan li 提交

作者: Li Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li

摘要

文化是一个丰富而动态的领域，它在地理和时间上都在演变。然而，现有关于视觉语言模型（VLMs）在文化理解方面的研究主要强调地理多样性，却常常忽视了关键的时间维度。为了弥补这一差距，我们引入了汉服基准（Hanfu-Bench），这是一个新颖的、由专家策划的多模态数据集。汉服，一种横跨中国古代多个朝代的传统服饰，作为一种代表性文化遗产，反映了中国文化的深刻时间层面，同时在中国当代社会中仍然广受欢迎。汉服基准包含两个核心任务：文化视觉理解和文化图像再创造。前者通过多项选择视觉问答，基于单图像或多图像输入来考察时间文化特征识别，而后者则侧重于通过文化元素继承和现代语境适应，将传统服饰转化为现代设计。我们的评估显示，封闭式 VLM 在文化视觉理解方面表现与非专家相当，但比人类专家落后 10%；而开放式 VLM 则进一步落后于非专家。对于再创造任务，多方面的人工评估表明，表现最佳的模型成功率仅为 42%。我们的基准提供了一个重要的测试平台，揭示了时间文化理解和创造性适应这一新方向上的重大挑战。

查看 arXiv 页面查看 PDF

wenyan li

论文作者

论文提交者

关于评估视觉语言模型（VLM）时间-文化理解能力的新基准论文

Hanfu-Bench：一项关于跨时间文化理解与转译的多模态基准

摘要

评论