⏶13
FlagEval 调查报告:对大型推理模型在自动可验证的文本和视觉问题上的初步评估
发表
由
Adina Yakefu 提交

作者: Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu,
Jing-Shu Zheng,
Miguel Hu Chen,
Richeng Xuan, Shibei Meng,
Shiqi Zhou,
Teng Dai, Tong-Shuai Ren, Wei Cui,
Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li,
Yaming Liu, Yesheng Liu, Ying Liu,
Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo,
Zheqi He, Zhiyuan He, Zhongyuan Wang





摘要
AI 生成总结
使用 ROME 基准测试对大型推理模型进行无污染评估,该基准测试了在视觉语言模型中从视觉线索进行推理的能力。我们对当前大型推理模型(LRMs)进行了适度规模的(在某种程度上)无污染评估,并取得了一些初步发现。我们还发布了 ROME,这是一个用于测试视觉语言模型从视觉线索进行推理的评估基准。我们在此网站上附上了基准、评估数据和其他更新的链接:https://flageval-baai.github.io/LRM-Eval/
这是一个侧重于能力 × 对齐 × 安全 × 效率的评估框架,以及 ROME,为视觉推理而构建的新基准,用于指导模型选择和风险决策。