专家混合遇上上下文强化学习

发表
Wenhao WuWenhao Wu 提交
作者: Wenhao WuWenhao Wu, Fuhong Liu, Haoru Li, Zican HuZican Hu, Daoyi Dong, Chunlin Chen, Zhi Wang

摘要

上下文强化学习(In-context Reinforcement Learning, ICRL)已成为一种通过提示词条件化来使强化学习(RL)智能体适应下游任务的有前景的范式。然而,在充分利用RL领域内的上下文学习时,仍存在两个显著挑战:状态-动作-奖励数据的内在多模态性,以及决策任务的多样性、异构性。为应对这些挑战,我们提出了T2MIR(面向上下文强化学习的令牌级和任务级专家混合模型),这是一个创新框架,将专家混合(Mixture-of-Experts, MoE)的架构改进引入到基于Transformer的决策模型中。T2MIR用两个并行层取代了前馈层:一个令牌级MoE,用于捕获跨多个模态的输入令牌的不同语义;以及一个任务级MoE,用于将不同任务路由到专业专家,以管理广泛的任务分布并缓解梯度冲突。为了增强任务级路由,我们引入了一种对比学习方法,该方法最大化任务与其路由器表示之间的互信息,从而更精确地捕获任务相关信息。两个MoE组件的输出被拼接并送入下一层。全面的实验表明,T2MIR显著提升了上下文学习能力,并超越了各种类型的基线。我们将MoE的潜力和前景带入ICRL,提供了一个简单且可扩展的架构增强,使ICRL离语言和视觉社区的成就更近一步。我们的代码可在https://github.com/NJU-RL/T2MIR获取。
查看 arXiv 页面查看 PDF

评论

Wenhao WuWenhao Wu
论文作者
论文提交者

上下文强化学习(ICRL)已成为一种有前景的范式,通过提示条件使强化学习智能体适应下游任务。然而,在强化学习领域充分利用上下文学习仍存在两个显著挑战:状态-动作-奖励数据的内在多模态性,以及决策任务的多样化、异构性。为解决这些挑战,我们提出了 T2MIR(Token- and Task-wise MoE for In-context RL),这是一个创新框架,它将专家混合模型(MoE)的架构改进引入基于Transformer的决策模型中。T2MIR 用两个并行层替代了前馈层:一个基于令牌的MoE,用于捕获跨多种模态的输入令牌的不同语义;以及一个基于任务的MoE,用于将多样化的任务路由到专门的专家,以管理广泛的任务分布并缓解梯度冲突。为增强任务路由,我们引入了一种对比学习方法,最大化任务及其路由表示之间的互信息,从而能够更精确地捕获任务相关信息。两个MoE组件的输出被拼接并送入下一层。全面实验表明,T2MIR显著提升了上下文学习能力,并优于各种类型的基线。我们将MoE的潜力和前景带到ICRL,提供了一种简单且可扩展的架构增强,使ICRL向语言和视觉社区的成就更进一步。我们的代码可在 https://github.com/NJU-RL/T2MIR 获取。