⏶27
Flex-Judge:一次思考,随处评判
发表
由
Sungnyun Kim 提交
作者:
Jongwoo Ko,
Sungnyun Kim,
Sungwoo Cho, Se-Young Yun
摘要
人类生成的奖励信号对于将生成模型与人类偏好对齐至关重要,它们指导训练和推理时的评估。虽然用作代理评估器的大型语言模型(LLM),即“LLM即评委”,显著降低了手动标注的成本,但它们通常需要大量的特定模态训练数据,并且难以很好地泛化到不同的多模态任务。在本文中,我们提出了Flex-Judge,这是一个基于推理的多模态评委模型,它利用最少的文本推理数据,能够鲁棒地泛化到多种模态和评估格式。我们的核心直觉是,结构化的文本推理解释本质上编码了可泛化的决策模式,从而能够有效地迁移到多模态判断中,例如对图像或视频的判断。实验结果表明,Flex-Judge尽管在显著少得多的文本数据上进行训练,但与最先进的商业API和经过大量训练的多模态评估器相比,仍能取得具有竞争力或更优的性能。值得注意的是,Flex-Judge在分子等模态中展现了广泛影响,在这些领域综合评估基准很少,这凸显了其在资源受限领域中的实际价值。我们的框架强调基于推理的文本监督是一种强大且经济高效的替代传统密集标注方法的方式,极大地推进了可扩展的多模态模型即评委的发展。
代码可在 https://github.com/jongwooko/flex-judge 获取。