⏶15
HumanOmniV2:从理解到基于上下文的全模态推理
发表
由
Shenghao Fu 提交
作者:
Qize Yang, Shimin Yao, Weixuan Chen,
Shenghao Fu, Detao Bai, Jiaxing Zhao,
Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
摘要
随着多模态大型语言模型的快速发展,深入理解和解释人类意图的能力已成为一项关键能力,这需要详细而周密的推理。在最近的研究中,强化学习(RL)已展现出在增强大型语言模型(LLM)推理能力方面的潜力。然而,将强化学习适应多模态数据和格式所面临的挑战在很大程度上仍未得到解决。在本文中,我们指出了现有多模态推理模型中的两个问题:全局上下文理解不足和捷径问题。上下文理解不足可能发生在模型错误解读多模态上下文,导致答案不正确时。捷径问题发生在模型忽略多模态输入中的关键线索,在未考虑多模态信息的情况下直接回答查询时。为解决这些问题,我们强调模型在多模态输入中,必须在清晰理解全局上下文的基础上进行推理。这种全局上下文理解能有效防止模型忽略关键的多模态线索,并确保彻底的推理过程。为确保多模态上下文信息的准确解释,我们引入了一个由大型语言模型判定的上下文奖励,以及格式和准确性奖励。此外,为提升复杂推理能力,我们利用 LLM 来评估逻辑奖励,判断推理过程是否成功地将多模态信息与逻辑方法相结合。我们还引入了一个推理全模态基准 IntentBench,旨在评估模型理解复杂人类意图和情感的能力。与其他开源全模态模型相比,我们提出的方法在多个全模态基准测试中展现出卓越性能。
随着多模态大语言模型的快速发展,深入理解和解释人类意图的能力已成为一项关键能力,这需要细致周密的推理。在最近的研究中,强化学习(RL)已展现出增强大语言模型(LLM)推理能力的潜力。然而,将RL应用于多模态数据和格式所面临的挑战在很大程度上仍未得到解决。在本文中,我们识别了现有多模态推理模型中的两个问题:全局上下文理解不足和捷径问题。当模型错误解释多模态上下文时,就会出现上下文理解不足的情况,从而导致错误的答案。捷径问题发生于模型忽略多模态输入中的关键线索,在未考虑多模态信息的情况下直接回答查询。为解决这些问题,我们强调模型在多模态输入中进行推理时,必须清晰理解全局上下文。这种全局上下文理解能有效防止模型忽略关键的多模态线索,并确保彻底的推理过程。为确保多模态上下文信息的准确解释,我们引入了由大语言模型判断的上下文奖励,同时还包括格式和准确性奖励。此外,为提高复杂推理能力,我们利用LLM评估逻辑奖励,判断推理过程是否成功地将多模态信息与逻辑方法相结合。我们还引入了一个推理全模态基准——IntentBench,旨在评估模型理解复杂人类意图和情感的能力。与其他开源全模态模型相比,我们提出的方法在多个全模态基准上展现出卓越的性能。