⏶52
观看、聆听、记忆和推理:一个拥有长期记忆的多模态智能体
发表
由
yichen he 提交

作者: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
摘要
我们引入了M3-Agent,一个配备长期记忆的新型多模态智能体框架。与人类类似,M3-Agent能够处理实时视觉和听觉输入,以建立和更新其长期记忆。除了情景记忆,它还发展出语义记忆,使其能够随着时间积累世界知识。其记忆以以实体为中心、多模态的格式组织,从而实现对环境更深入、更一致的理解。在给定指令后,M3-Agent自主执行多轮迭代推理,并从记忆中检索相关信息以完成任务。为了评估多模态智能体中记忆的有效性和基于记忆的推理,我们开发了M3-Bench,一个新的长视频问答基准。M3-Bench包含100个新录制的从机器人视角捕获的真实世界视频(M3-Bench-robot)和929个来自网络、涵盖不同场景的视频(M3-Bench-web)。我们标注了旨在测试智能体应用所需关键能力的问答对,例如人类理解、通用知识提取和跨模态推理。实验结果表明,通过强化学习训练的M3-Agent,在M3-Bench-robot、M3-Bench-web和VideoMME-long上分别比使用Gemini-1.5-pro和GPT-4o的提示智能体这一最强基线提高了6.7%、7.7%和5.3%的准确率。我们的工作推动了多模态智能体向更像人类的长期记忆发展,并为其实际设计提供了见解。模型、代码和数据可在https://github.com/bytedance-seed/m3-agent获取。