文本条件状态空间模型,用于领域泛化变化检测视觉问答

发表
Elman GhazaeiElman Ghazaei 提交
作者: Elman GhazaeiElman Ghazaei, Erchan Aptoula

摘要

地球表面不断变化,检测这些变化提供了宝贵的见解,惠及人类社会的各个方面。虽然传统的变化检测方法已被用于从双时相图像中检测变化,但这些方法通常需要专业知识才能进行准确解释。为了让非专业用户更广泛、更灵活地获取变化信息,引入了变化检测视觉问答 (CDVQA) 任务。然而,现有的 CDVQA 方法是在训练和测试数据集共享相似分布的假设下开发的。这一假设在实际应用中不成立,因为通常会发生领域转移。在本文中,CDVQA 任务再次被关注,重点是解决领域转移问题。为此,引入了一个新的多模态和多领域数据集 BrightVQA,以促进 CDVQA 中的领域泛化研究。此外,提出了一种新颖的状态空间模型,称为文本条件状态空间模型 (TCSSM)。TCSSM 框架旨在以统一的方式利用双时相图像和与地质灾害相关的文本信息,以提取跨领域的领域不变特征。TCSSM 中存在的依赖于输入的参数通过使用双时相图像和地质灾害相关描述动态预测,从而促进双时相视觉数据与相关文本描述之间的对齐。进行了广泛的实验,以评估所提出的方法与最先进的模型,并且始终表现出卓越的性能。代码和数据集将在被接收后公开提供,网址为 https://github.com/Elman295/TCSSM
查看 arXiv 页面查看 PDF

评论

Elman GhazaeiElman Ghazaei
论文作者
论文提交者

用于领域泛化变化检测视觉问答的文本条件状态空间模型