AI论文精选
GRPO
⏶
90
使用一个训练样本对大型语言模型进行推理的强化学习
⏶
90
统一的多模态思维链奖励模型:通过强化微调实现
⏶
88
Table-R1:面向表格推理的推理时缩放
⏶
66
Spatial-MLLM:提升MLLM在基于视觉的空间智能方面的能力
⏶
53
视觉规划:只用图像思考
⏶
45
通过 GRPO 对多模态 LLM 推理进行无监督后训练
⏶
43
ARM:自适应推理模型
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
35
基于预算相对策略优化的随时推理优化
⏶
24
通过弹性推理的可扩展思维链
⏶
23
CPGD: 迈向用于语言模型的稳定基于规则强化学习
⏶
22
通过拒绝采样和强化学习中的梯度方差最小化来优化思维链推理器
⏶
20
AV-Reasoner:改进和基准测试 MLLM 的线索导向音视频计数
⏶
19
DUMP:基于RL的LLM后训练的自动化分布级别课程学习
⏶
15
借星引航:大型语言模型在后训练和测试阶段扩展中从奖励中学习的综述
⏶
15
StreamBP:LLM 长序列训练的内存高效精确反向传播
⏶
14
LLM推理的极简主义方法:从拒绝采样到强化学习
⏶
14
Active-O3:通过 GRPO 赋予多模态大语言模型主动感知能力
⏶
12
让RL重拾价值:统一大模型推理器与验证器,提升推理时扩展性
⏶
12
GRIT: 教导MLLMs使用图像进行思考
⏶
12
通过强化学习实现的大型语言模型交错推理
⏶
10
强化学习微调大语言模型中的小子网络
⏶
9
VisualSphinx:用于强化学习 (RL) 的大规模合成视觉逻辑谜题
⏶
8
Omni-R1:你真的需要音频来微调你的音频大语言模型吗?
⏶
5
关于用于LLM推理的KL正则化策略梯度算法的设计
⏶
4
在数学推理中衔接监督学习与强化学习
⏶
3
分段策略优化:大型语言模型强化学习中有效的段级信用分配
⏶
2
R1-代码解释器:通过监督学习和强化学习训练大型语言模型进行代码推理