基于Itakura-Saito损失的风险规避强化学习

发表
Igor UdovichenkoIgor Udovichenko 提交
作者: Igor UdovichenkoIgor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin

摘要

风险规避强化学习在各种高风险领域都有应用。与旨在最大化预期回报的经典强化学习不同,风险规避智能体选择最小化风险的策略,有时会牺牲预期值。这些偏好可以通过效用理论来构建。我们关注指数效用函数的特定情况,在这种情况下,我们可以推导出贝尔曼方程,并只需稍作修改即可采用各种强化学习算法。然而,这些方法由于在整个过程中需要进行指数计算而存在数值不稳定问题。为了解决这个问题,我们引入了一个基于Itakura-Saito散度的、数值稳定且数学上合理的损失函数,用于学习状态价值和行动价值函数。我们在理论和实证上评估了我们提出的损失函数与现有替代方案的对比。在实验部分,我们探索了多个金融场景,其中一些具有已知的解析解,并表明我们的损失函数优于替代方案。
查看 arXiv 页面查看 PDF

评论

Igor UdovichenkoIgor Udovichenko
论文作者
论文提交者

该论文提出了一种用于具有指数效用的风险规避型强化学习的新损失函数。该损失函数具有数学上的合理性(非启发式!)且数值稳定。