AI论文精选
GRPO
⏶
274
组序列策略优化
⏶
104
Ovis2.5 技术报告
⏶
91
Table-R1:面向表格推理的推理时缩放
⏶
90
使用一个训练样本对大型语言模型进行推理的强化学习
⏶
90
统一的多模态思维链奖励模型:通过强化微调实现
⏶
85
Pref-GRPO:基于成对偏好奖励的GRPO,用于稳定的文本到图像强化学习
⏶
67
Spatial-MLLM:提升MLLM在基于视觉的空间智能方面的能力
⏶
53
视觉规划:只用图像思考
⏶
45
通过 GRPO 对多模态 LLM 推理进行无监督后训练
⏶
43
ARM:自适应推理模型
⏶
42
感知感知的多模态推理策略优化
⏶
42
第一部分:是技巧还是陷阱?深入探讨用于大型语言模型推理的强化学习
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
35
基于预算相对策略优化的随时推理优化
⏶
35
CODA:通过解耦强化学习协调大脑和 cerebellum,用于双脑电脑使用代理
⏶
32
Baichuan-M2:使用大型验证器系统扩展医疗能力
⏶
31
RLVER: 具有可验证情感奖励的强化学习,用于共情智能体
⏶
31
几何平均策略优化
⏶
24
通过弹性推理的可扩展思维链
⏶
23
CPGD: 迈向用于语言模型的稳定基于规则强化学习
⏶
22
通过拒绝采样和强化学习中的梯度方差最小化来优化思维链推理器
⏶
22
通过监督学习框架实现 RLVR 的隐式 Actor-Critic 耦合
⏶
21
GEPA:反思式提示演进可超越强化学习
⏶
20
AV-Reasoner:改进和基准测试 MLLM 的线索导向音视频计数
⏶
19
DUMP:基于RL的LLM后训练的自动化分布级别课程学习
⏶
18
DCPO:动态裁剪策略优化
⏶
16
StreamBP:LLM 长序列训练的内存高效精确反向传播
⏶
15
借星引航:大型语言模型在后训练和测试阶段扩展中从奖励中学习的综述
⏶
15
3D-R1:增强 3D 视觉语言模型中的推理能力以实现统一场景理解
⏶
14
LLM推理的极简主义方法:从拒绝采样到强化学习
⏶
14
Active-O3:通过 GRPO 赋予多模态大语言模型主动感知能力
⏶
13
自由形式生成中开放式R1训练的语义感知奖励
⏶
12
让RL重拾价值:统一大模型推理器与验证器,提升推理时扩展性
⏶
12
GRIT: 教导MLLMs使用图像进行思考
⏶
12
通过强化学习实现的大型语言模型交错推理
⏶
12
增加采样,减少思考:用于简洁推理的组过滤策略优化
⏶
11
优化大型推理模型中的长度压缩
⏶
10
强化学习微调大语言模型中的小子网络
⏶
10
DeepVideo-R1:通过难度感知回归式GRPO进行视频强化微调
⏶
10
构建数学大语言模型的实用两阶段方案:利用SFT最大化准确率,以强化学习提升效率
⏶
10
TempFlow-GRPO: 流动模型中 GRPO 的时效性研究
⏶
9
VisualSphinx:用于强化学习 (RL) 的大规模合成视觉逻辑谜题
⏶
9
用于推理任务的混合专家语言模型的最优稀疏性
⏶
8
Omni-R1:你真的需要音频来微调你的音频大语言模型吗?
⏶
8
ReCode:基于强化学习更新代码API知识
⏶
7
EDGE-GRPO:基于熵驱动的GRPO及引导式误差校正,实现优势多样性
⏶
6
选择性了解:一种用于领域特定问答的内部-外部知识自选框架
⏶
5
关于用于LLM推理的KL正则化策略梯度算法的设计
⏶
4
在数学推理中衔接监督学习与强化学习
⏶
3
分段策略优化:大型语言模型强化学习中有效的段级信用分配
⏶
3
GeometryZero: 通过群组对比策略优化改进大语言模型的几何解题能力
⏶
3
对齐质量指数 (AQI):超越拒绝:AQI作为一种通过潜在几何、聚类发散和逐层池化表示的内在对齐诊断方法
⏶
2
R1-代码解释器:通过监督学习和强化学习训练大型语言模型进行代码推理
⏶
2
BOW:瓶颈式后续词探索