⏶11
HumanSense:通过推理式多模态大语言模型,从多模态感知到具有同理心的上下文感知响应
发表
由
ruobing zheng 提交
作者: Zheng Qin, Ruobing Zheng, Yabing Wang, Tianqi Li, Yi Yuan, Jingdong Chen, Le Wang
摘要
尽管多模态大语言模型(MLLM)在实现真正类人交互方面展现出巨大潜力,但由于缺乏针对以人为中心场景的细粒度评估框架,其进展受到了阻碍。这类框架需要既能理解复杂的人类意图,又能提供富有同理心、符合语境的回应。为此,我们推出了 HumanSense,一个旨在评估多模态大语言模型以人为中心的感知和交互能力的综合基准,特别关注对扩展多模态上下文的深度理解以及形成理性反馈的能力。我们的评估显示,领先的多模态大语言模型仍有相当大的提升空间,尤其是在高级的面向交互的任务上。通过为视觉输入补充音频和文本信息,模型性能得到了显著提升,并且全模态模型在这些任务上显示出优势。此外,我们认为,恰当的反馈源于对对话者需求和情绪的语境分析,而推理能力是实现这一点的关键。因此,我们采用了一种多阶段、模态渐进式的强化学习方法来增强一个全模态模型的推理能力,并在评估结果上取得了显著的进步。此外,我们观察到成功的推理过程展现出高度一致的思维模式。通过设计相应的提示,我们也在免训练的情况下提升了非推理模型的性能。项目主页:brightpinkhttps://digital-avatar.github.io/ai/HumanSense/



我们引入了 HumanSense 基准,以探索 MLLM 在复杂以人为中心的感知和交互场景中的能力。我们提出全模态推理可以增强 MLLM 在此类任务上的性能。我们旨在激励社区认识到 MLLM 在推进 AI 交互体验方面的潜力。
项目页面:https://digital-avatar.github.io/ai/HumanSense/