⏶2
打破数据孤岛:通过生成式持续学习迈向开放和可扩展的移动基础模型
发表
由
Jie Feng 提交
作者: Yuan Yuan, Yukun Liu, Chonghua Han,
Jie Feng, Yong Li
摘要
基础模型通过实现跨不同任务和数据集的通用学习,彻底改变了自然语言处理和计算机视觉等领域。然而,由于出行数据的隐私敏感性以及由此导致机构间的数据孤岛,为人类出行构建类似的模型仍然充满挑战。为了弥补这一差距,我们提出了 MoveGCL,一个可扩展且保护隐私的框架,用于通过生成式持续学习来训练出行基础模型。在不共享原始数据的情况下,MoveGCL 通过重放从冻结教师模型生成的合成轨迹,实现了去中心化和渐进式模型演化,并通过量身定制的蒸馏策略强化了知识保留,从而减轻了灾难性遗忘。为了解决出行模式的异质性,MoveGCL 结合了一个专家混合 Transformer,带有一个出行感知专家路由机制,并采用分层渐进式适应策略来稳定持续更新。在六个真实世界城市数据集上的实验表明,MoveGCL 取得了与联合训练相当的性能,并显著优于联邦学习基线,同时提供了强大的隐私保护。MoveGCL 标志着在解锁出行基础模型方面迈出了关键一步,为基础模型时代开放、可扩展和隐私保护的模型开发提供了实用的蓝图。

MoveGCL标志着在为移动领域释放基础模型方面迈出了关键一步,为基础模型时代开放、可扩展和隐私保护的模型开发提供了一个实用的蓝图。