⏶2
从架构视角重新思考持续学习中的稳定性-可塑性权衡
发表
由
Hangjie Yuan 提交
作者:
Aojun Lu,
Hangjie Yuan, Tao Feng, Yanan Sun

摘要
持续学习(CL)的探索旨在赋予神经网络增量学习和适应的能力。这一探索的核心是解决稳定性-可塑性困境,即在保持先前学习到的知识和获取新知识这两个相互冲突的目标之间取得平衡。尽管许多CL方法旨在实现这种权衡,但它们往往忽视了网络架构对稳定性和可塑性的影响,将权衡限制在参数层面。在本文中,我们深入探讨了架构层面的稳定性和可塑性之间的冲突。我们发现,在相同参数约束下,更深的网络表现出更好的可塑性,而更宽的网络则以卓越的稳定性为特征。为解决这一架构层面的困境,我们引入了一个名为Dual-Arch的新颖框架,它可作为CL的插件组件。该框架利用了两个独立网络的互补优势:一个专注于可塑性,另一个专注于稳定性。每个网络都采用专业且轻量级的架构设计,以适应其各自的目标。大量实验表明,Dual-Arch在参数方面更加紧凑(高达87%),同时提升了现有CL方法的性能。
Code: https://github.com/byyx666/Dual-Arch