顿悟时刻再探:视觉语言模型真的能在推理时缩放中进行自我验证吗?

发表
Mingyuan WuMingyuan Wu 提交
作者: Mingyuan WuMingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt

摘要

大型语言模型 (LLM) 的最新进展表明,推理时计算技术,例如解码时缩放和自我完善,可以显著增强推理能力,而无需依赖外部知识。这种成功的关键驱动因素是自我纠正和自我验证行为的出现,通常通过强化学习 (RL) 引发。在本文中,我们研究了这些推理时技术是否有效地扩展到视觉语言模型 (VLM),特别是那些使用 RL 训练的模型。我们发现,虽然诸如多数投票和具有自我验证的 Best-of-N 选择之类的解码策略都提高了 VLM 的推理性能,但诸如前者之类的依赖于生成的方法与诸如后者之类的依赖于验证的方法相比,获得了显著更高的收益。此外,通常与 RL 调整模型相关的自我纠正行为(例如,aha 时刻)并没有带来可衡量的收益。我们通过在推理时缩放框架内进行大量实验来确定一个关键的根本原因:经过 RL 训练的 VLM 仍然缺乏跨视觉和文本模式的鲁棒的自我验证能力。
查看 arXiv 页面查看 PDF

评论

Mingyuan WuMingyuan Wu
论文作者
论文提交者

大型语言模型 (LLM) 的最新进展表明,诸如解码时缩放和自我细化等推理时计算技术可以显着增强推理能力,而无需依赖外部知识。这种成功的关键驱动因素是自我纠正和自我验证行为的出现,这些行为通常通过强化学习 (RL) 引发。在本文中,我们研究了这些推理时技术是否有效地扩展到视觉语言模型 (VLM),特别是那些使用 RL 训练的模型。我们发现,虽然诸如多数投票和具有自我验证的 Best-of-N 选择等解码策略都可以提高 VLM 的推理性能,但依赖生成的方法(如前者)比依赖验证的方法(如后者)获得显着更高的收益。此外,通常与 RL 调整模型相关的自我纠正行为(例如,顿悟时刻)不会导致可测量的收益。我们通过推理时缩放框架中的大量实验来确定一个关键根本原因:RL 训练的 VLM 仍然缺乏跨视觉和文本模态的稳健的自我验证能力。