RotBench:评估多模态大型语言模型识别图像旋转的能力

发表
Jaemin ChoJaemin Cho 提交
作者: Tianyi NiuTianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

摘要

我们调查了多模态大型语言模型(MLLMs)在多大程度上能够准确识别输入图像旋转 0°、90°、180° 和 270° 后的方向。这项任务要求模型具备强大的视觉推理能力,无论图像方向如何,都能检测旋转线索并理解图像中的空间关系。为了评估 MLLMs 的这些能力,我们引入了 RotBench——一个包含 350 张经过手动筛选的生活、肖像和风景图像的基准测试。尽管这项任务相对简单,但我们发现包括 GPT-5、o3 和 Gemini-2.5-Pro 在内的几种最先进的开源和专有 MLLM 无法可靠地识别输入图像的旋转。向模型提供辅助信息(包括字幕、深度图等)或使用思维链提示,只能带来微小且不一致的改进。我们的结果表明,大多数模型能够可靠地识别正向(0°)图像,而某些模型能够识别倒置(180°)图像。没有模型能够可靠地区分 90° 和 270°。同时显示不同方向旋转的图像会使推理模型获得适度的性能提升,而使用投票的修改设置则改善了较弱模型的性能。我们进一步表明,尽管微调能显著改善 180° 图像的识别,但并不能提高模型区分 90° 和 270° 旋转的能力。总而言之,这些结果揭示了 MLLM 在识别旋转方面的空间推理能力与人类感知之间存在显著差距。
查看 arXiv 页面查看 PDF

评论

Jaemin ChoJaemin Cho
论文提交者

代码和数据:https://github.com/tianyiniu/RotBench