GRPO

组序列策略优化

VCRL: 用于大型语言模型的基于方差的课程强化学习

VCRL: 用于大型语言模型的基于方差的课程强化学习

用于熵安全推理的分位数优势估计

用于熵安全推理的分位数优势估计

Ovis2.5 技术报告

FlowRL: 匹配LLM推理的奖励分布

FlowRL: 匹配LLM推理的奖励分布

使用一个训练样本对大型语言模型进行推理的强化学习

使用一个训练样本对大型语言模型进行推理的强化学习

Table-R1：面向表格推理的推理时缩放

Table-R1：面向表格推理的推理时缩放

统一的多模态思维链奖励模型：通过强化微调实现

统一的多模态思维链奖励模型：通过强化微调实现

Pref-GRPO：基于成对偏好奖励的GRPO，用于稳定的文本到图像强化学习

Pref-GRPO：基于成对偏好奖励的GRPO，用于稳定的文本到图像强化学习

GEM：用于Agentic LLM的Gym

GEM：用于Agentic LLM的Gym

ReSum：通过上下文摘要解锁长视线搜索智能

ReSum：通过上下文摘要解锁长视线搜索智能

Fathom-DeepResearch：解锁长时域信息检索和 SLM 的综合利用

Fathom-DeepResearch：解锁长时域信息检索和 SLM 的综合利用

Spatial-MLLM：提升MLLM在基于视觉的空间智能方面的能力

语言模型的变分推理

视觉规划：只用图像思考

元意识增强推理模型：自对齐强化学习

元意识增强推理模型：自对齐强化学习

TruthRL：通过强化学习激励诚实的LLM

TruthRL：通过强化学习激励诚实的LLM

感知感知的多模态推理策略优化

通过 GRPO 对多模态 LLM 推理进行无监督后训练

通过 GRPO 对多模态 LLM 推理进行无监督后训练

第一部分：是技巧还是陷阱？深入探讨用于大型语言模型推理的强化学习

第一部分：是技巧还是陷阱？深入探讨用于大型语言模型推理的强化学习

ARM：自适应推理模型

Baichuan-M2：使用大型验证器系统扩展医疗能力

Baichuan-M2：使用大型验证器系统扩展医疗能力

不落下任何提示：通过熵引导的优势塑造，在LLM强化学习中利用零方差提示

不落下任何提示：通过熵引导的优势塑造，在LLM强化学习中利用零方差提示

基于预算相对策略优化的随时推理优化

基于预算相对策略优化的随时推理优化

通过带有冷启动的强化学习推进多模态推理

通过带有冷启动的强化学习推进多模态推理

CODA：通过解耦强化学习协调大脑和 cerebellum，用于双脑电脑使用代理

CODA：通过解耦强化学习协调大脑和 cerebellum，用于双脑电脑使用代理

RLinf-VLA：一个统一高效的 VLA+RL 训练框架

RLinf-VLA：一个统一高效的 VLA+RL 训练框架

OTC：基于强化学习的最优工具调用

OTC：基于强化学习的最优工具调用

单流策略优化

无需标签即可进化语言模型：多数驱动选择，新颖性促进变异

无需标签即可进化语言模型：多数驱动选择，新颖性促进变异

RLVER: 具有可验证情感奖励的强化学习，用于共情智能体

RLVER: 具有可验证情感奖励的强化学习，用于共情智能体

几何平均策略优化

借助工具强化视觉感知

通过强化学习实现大型语言模型的涌现式分层推理

通过强化学习实现大型语言模型的涌现式分层推理

GEPA：反思式提示演进可超越强化学习

GEPA：反思式提示演进可超越强化学习

对于具有可验证奖励的 LLM 推理，随机策略评估就足够了

对于具有可验证奖励的 LLM 推理，随机策略评估就足够了

通过弹性推理的可扩展思维链

通过拒绝采样和强化学习中的梯度方差最小化来优化思维链推理器

通过拒绝采样和强化学习中的梯度方差最小化来优化思维链推理器

通过监督学习框架实现 RLVR 的隐式 Actor-Critic 耦合

通过监督学习框架实现 RLVR 的隐式 Actor-Critic 耦合

CPGD: 迈向用于语言模型的稳定基于规则强化学习

CPGD: 迈向用于语言模型的稳定基于规则强化学习

VLM中针对图像偏好的听众奖励式思维

VLM中针对图像偏好的听众奖励式思维

DCPO：动态裁剪策略优化

保持在最佳状态：通过能力自适应提示脚手架实现响应式推理演化

保持在最佳状态：通过能力自适应提示脚手架实现响应式推理演化

AV-Reasoner：改进和基准测试 MLLM 的线索导向音视频计数

AV-Reasoner：改进和基准测试 MLLM 的线索导向音视频计数

DUMP：基于RL的LLM后训练的自动化分布级别课程学习

DUMP：基于RL的LLM后训练的自动化分布级别课程学习

LLM推理的极简主义方法：从拒绝采样到强化学习

LLM推理的极简主义方法：从拒绝采样到强化学习

VOGUE：利用视觉不确定性指导探索以提升多模态推理能力

VOGUE：利用视觉不确定性指导探索以提升多模态推理能力

WirelessMathLM：使用强化学习为无线通信中的 LLM 教授数学推理

WirelessMathLM：使用强化学习为无线通信中的 LLM 教授数学推理

StreamBP：LLM 长序列训练的内存高效精确反向传播

StreamBP：LLM 长序列训练的内存高效精确反向传播

使用 GRPO 提升语音感知语言模型中的语音理解能力

使用 GRPO 提升语音感知语言模型中的语音理解能力

借星引航：大型语言模型在后训练和测试阶段扩展中从奖励中学习的综述

借星引航：大型语言模型在后训练和测试阶段扩展中从奖励中学习的综述

Active-O3：通过 GRPO 赋予多模态大语言模型主动感知能力

Active-O3：通过 GRPO 赋予多模态大语言模型主动感知能力

3D-R1：增强 3D 视觉语言模型中的推理能力以实现统一场景理解

3D-R1：增强 3D 视觉语言模型中的推理能力以实现统一场景理解

用于扩散大语言模型的图像修复引导策略优化

用于扩散大语言模型的图像修复引导策略优化

通过强化学习实现的大型语言模型交错推理

通过强化学习实现的大型语言模型交错推理

DeepVideo-R1：通过难度感知回归式GRPO进行视频强化微调

DeepVideo-R1：通过难度感知回归式GRPO进行视频强化微调

自由形式生成中开放式R1训练的语义感知奖励

自由形式生成中开放式R1训练的语义感知奖励

增加采样，减少思考：用于简洁推理的组过滤策略优化

增加采样，减少思考：用于简洁推理的组过滤策略优化

通过动态奖励权重学习优化多目标对齐

通过动态奖励权重学习优化多目标对齐

Don't Waste Mistakes: 利用置信度重加权，从负强化学习组中汲取教训

Don't Waste Mistakes: 利用置信度重加权，从负强化学习组中汲取教训

DianJin-R1：评估与增强大型语言模型中的金融推理能力

DianJin-R1：评估与增强大型语言模型中的金融推理能力

让RL重拾价值：统一大模型推理器与验证器，提升推理时扩展性

让RL重拾价值：统一大模型推理器与验证器，提升推理时扩展性

GRIT: 教导MLLMs使用图像进行思考

GRIT: 教导MLLMs使用图像进行思考

强化学习微调大语言模型中的小子网络

强化学习微调大语言模型中的小子网络

TempFlow-GRPO: 流动模型中 GRPO 的时效性研究

TempFlow-GRPO: 流动模型中 GRPO 的时效性研究

Humanline：在线对齐作为感知损失

Humanline：在线对齐作为感知损失

VisualSphinx：用于强化学习 (RL) 的大规模合成视觉逻辑谜题

VisualSphinx：用于强化学习 (RL) 的大规模合成视觉逻辑谜题

优化大型推理模型中的长度压缩

构建数学大语言模型的实用两阶段方案：利用SFT最大化准确率，以强化学习提升效率

构建数学大语言模型的实用两阶段方案：利用SFT最大化准确率，以强化学习提升效率

用于推理任务的混合专家语言模型的最优稀疏性

用于推理任务的混合专家语言模型的最优稀疏性

通过直接分组偏好优化强化扩散模型

通过直接分组偏好优化强化扩散模型

Omni-R1：你真的需要音频来微调你的音频大语言模型吗？

Omni-R1：你真的需要音频来微调你的音频大语言模型吗？

ReCode：基于强化学习更新代码API知识

ReCode：基于强化学习更新代码API知识

GRPO-MA：GRPO 中的多答案生成，用于稳定高效的思维链训练

GRPO-MA：GRPO 中的多答案生成，用于稳定高效的思维链训练

技能定向自适应训练

EDGE-GRPO：基于熵驱动的GRPO及引导式误差校正，实现优势多样性

EDGE-GRPO：基于熵驱动的GRPO及引导式误差校正，实现优势多样性

ΔL归一化：重新思考RLVR中的损失聚合

ΔL归一化：重新思考RLVR中的损失聚合

关于用于LLM推理的KL正则化策略梯度算法的设计

关于用于LLM推理的KL正则化策略梯度算法的设计

选择性了解：一种用于领域特定问答的内部-外部知识自选框架

选择性了解：一种用于领域特定问答的内部-外部知识自选框架

Group-Relative REINFORCE实际上是一个离线策略算法：揭示GRPO及其同类的一些神话

Group-Relative REINFORCE实际上是一个离线策略算法：揭示GRPO及其同类的一些神话

多轮主体式强化学习实践指南

G^2RPO：用于流模型中精确奖励的粒度GRPO

G^2RPO：用于流模型中精确奖励的粒度GRPO

在数学推理中衔接监督学习与强化学习

在数学推理中衔接监督学习与强化学习

面向对话代理的多模态策略内化

分段策略优化：大型语言模型强化学习中有效的段级信用分配

分段策略优化：大型语言模型强化学习中有效的段级信用分配

GeometryZero: 通过群组对比策略优化改进大语言模型的几何解题能力

GeometryZero: 通过群组对比策略优化改进大语言模型的几何解题能力

对齐质量指数 (AQI)：超越拒绝：AQI作为一种通过潜在几何、聚类发散和逐层池化表示的内在对齐诊断方法

对齐质量指数 (AQI)：超越拒绝：AQI作为一种通过潜在几何、聚类发散和逐层池化表示的内在对齐诊断方法

推动 LLM 推理的边界

R1-代码解释器：通过监督学习和强化学习训练大型语言模型进行代码推理

R1-代码解释器：通过监督学习和强化学习训练大型语言模型进行代码推理

巩固多模态离散扩散模型的强化学习

巩固多模态离散扩散模型的强化学习

BOW：瓶颈式后续词探索

ReFIne：一个具有可靠性、忠实性和可解释性的可信大型推理模型框架

ReFIne：一个具有可靠性、忠实性和可解释性的可信大型推理模型框架