FlagEval 调查报告:对大型推理模型在自动可验证的文本和视觉问题上的初步评估

发表
Adina YakefuAdina Yakefu 提交
作者: Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, jingshuJing-Shu Zheng, Miguel HuMiguel Hu Chen, Richeng XuanRicheng Xuan, Shibei Meng, Shiqi ZhouShiqi Zhou, Dai TengTeng Dai, Tong-Shuai Ren, Wei Cui, Xi YangXi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming LIUYaming Liu, Yesheng Liu, Ying Liu, Yonghua LinYonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi HeZheqi He, Zhiyuan He, Zhongyuan Wang

摘要

AI 生成总结
使用 ROME 基准测试对大型推理模型进行无污染评估,该基准测试了在视觉语言模型中从视觉线索进行推理的能力。
我们对当前大型推理模型(LRMs)进行了适度规模的(在某种程度上)无污染评估,并取得了一些初步发现。我们还发布了 ROME,这是一个用于测试视觉语言模型从视觉线索进行推理的评估基准。我们在此网站上附上了基准、评估数据和其他更新的链接:https://flageval-baai.github.io/LRM-Eval/
查看 arXiv 页面查看 PDF

评论

Adina YakefuAdina Yakefu
论文提交者

这是一个侧重于能力 × 对齐 × 安全 × 效率的评估框架,以及 ROME,为视觉推理而构建的新基准,用于指导模型选择和风险决策。