RynnEC:将多模态大型语言模型引入具身世界

发表
YuqianYuanYuqianYuan 提交
作者: Ronghao DangRonghao Dang, YuqianYuanYuqian Yuan, yunxuan maoYunxuan Mao, Kehan LIKehan Li, jiangpinJiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

摘要

我们介绍了 RynnEC,一个专为具身认知设计的视频多模态大型语言模型。RynnEC 构建在通用视觉语言基础模型之上,集成了区域编码器和掩码解码器,从而实现了灵活的区域级视频交互。尽管架构紧凑,RynnEC 在物体属性理解、物体分割和空间推理方面取得了最先进的性能。从概念上讲,它为具身代理的大脑提供了一个以区域为中心的视频范例,能够对物理世界进行细粒度感知,并实现更精确的交互。为了缓解标注 3D 数据集稀缺的问题,我们提出了一种基于自主视频生成具身认知数据的管道。此外,我们还推出了 RynnEC-Bench,这是一个以区域为中心的基准,用于评估具身认知能力。我们预计 RynnEC 将推动具身代理通用认知核心的发展,并促进跨不同具身任务的泛化。代码、模型检查点和基准可在以下网址获得:https://github.com/alibaba-damo-academy/RynnEC
查看 arXiv 页面查看 PDF
RynnEC:将多模态大型语言模型引入具身世界

评论

YuqianYuanYuqianYuan
论文作者
论文提交者

我们推出了 RynnEC,这是我们首个多模态大型语言模型 (MLLM),专门为具身感知和理解而设计。

1.RynnEC 是“以对象为中心”的,支持基于对象的理解,并能识别多达 12 种对象属性/关系。

2.RynnEC 仅使用 RGB 视频即可感知空间,无需显式的 3D 输入。

3.RynnEC 能够将用户查询映射为精确的语义掩码,降低歧义,更易于集成到下游的具身代理/策略中。

4.我们提出了 RynnEC-Bench,用于全面评估 RynnEC 在开放世界场景中的对象认知和空间认知能力

开源链接:

🤖 微调代码: https://github.com/alibaba-damo-academy/RynnEC

🤗 预训练权重: https://huggingface.co/Alibaba-DAMO-Academy/RynnEC-2B

🤗 具身认知基准: https://huggingface.co/datasets/Alibaba-DAMO-Academy/RynnEC-Bench

🤗 Huggingface 演示: https://huggingface.co/spaces/Alibaba-DAMO-Academy/RynnEC