空间知识图谱引导的多模态合成

发表
Ningyu ZhangNingyu Zhang 提交
作者: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang

摘要

近年来,多模态大型语言模型(MLLMs)的进展显著增强了它们的能力;然而,它们的空间感知能力仍然是一个显著的局限。为了解决这一挑战,多模态数据合成提供了一种有前景的解决方案。然而,确保合成数据遵循空间常识并非易事。在这项工作中,我们引入了SKG2Data,这是一种由空间知识图谱引导的新颖多模态合成方法,其基础是知识到数据生成的概念。SKG2Data自动构建空间知识图谱(SKG),以模拟人类对空间方向和距离的感知,随后利用SKG来指导多模态数据合成。大量实验表明,从包括方向和距离在内的不同类型空间知识合成的数据,不仅增强了MLLMs的空间感知和推理能力,而且表现出强大的泛化能力。我们希望基于知识的数据合成这一理念能够推动空间智能的发展。
查看 arXiv 页面查看 PDF

评论

Ningyu ZhangNingyu Zhang
论文提交者

我们引入了 SKG2Data,这是一种新颖的多模态合成方法,以空间知识图谱为指导,基于知识到数据的生成概念。

SKG2Data 自动构建空间知识图谱 (SKG),以模拟人类对空间方向和距离的感知,随后利用该图谱来指导多模态数据合成。