⏶27
视觉中的强化学习:一项综述
发表
由
wu weijia 提交
作者: Weijia Wu, Chen Gao, Joya Chen,
Kevin Qinghong Lin, Qingwei Meng, Yiming Zhang, Yuke Qiu, Hong Zhou, Mike Zheng Shou

摘要
强化学习(RL)和视觉智能交叉领域的最新进展使得智能体不仅能够感知复杂的视觉场景,还能在其中进行推理、生成和行动。本次调查对该领域进行了批判性且最新的综合分析。我们首先形式化视觉RL问题,并追溯策略优化策略的演变,从RLHF到可验证奖励范式,以及从近端策略优化到群体相对策略优化。然后,我们将200多项代表性工作归纳为四个主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-行动模型。对于每个支柱,我们审查了算法设计、奖励工程、基准进展,并提炼了课程驱动训练、偏好对齐扩散和统一奖励建模等趋势。最后,我们回顾了涵盖集合级保真度、样本级偏好和状态级稳定性的评估协议,并指出了样本效率、泛化和安全部署等开放挑战。我们的目标是为研究人员和从业者提供一个快速扩展的视觉RL领域的连贯地图,并指出未来研究的有前景方向。资源可在以下链接获取:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。
评论
论文提交者