AI论文精选
强化学习
⏶
274
组序列策略优化
⏶
196
反思、重试、奖励:基于强化学习的LLM自我改进
⏶
184
GLM-4.1V-Thinking: 迈向通用多模态推理,借助可扩展强化学习
⏶
159
GLM-4.5:智能体、推理和编码(ARC)基础模型
⏶
154
关于SFT泛化性的研究:一个带有奖励修正的强化学习视角
⏶
143
面向 LLM 的代理强化学习景观:一篇调查报告
⏶
140
将RL扩展到长视频
⏶
137
自主强化策略优化
⏶
126
GUI-G^2:用于GUI对齐的高斯奖励建模
⏶
124
ProRL:长期强化学习拓展大型语言模型的推理边界
⏶
123
置信度即所需一切:语言模型的少样本强化学习微调
⏶
121
快手 Keye-VL 技术报告
⏶
120
用于推理语言模型的强化学习熵机制
⏶
119
WebWatcher:突破视觉语言深度研究代理新前沿
⏶
118
强化学习真的能激励LLM在基础模型之上展现推理能力吗?
⏶
114
ReasonRank:通过强大的推理能力赋能段落排序
⏶
106
Seed-Prover:用于自动定理证明的深度和广度推理
⏶
105
灵枢:面向统一多模态医学理解与推理的通用基础模型
⏶
100
UI-TARS-2 技术报告:通过多轮强化学习推进 GUI 代理
⏶
91
Table-R1:面向表格推理的推理时缩放
⏶
91
SSRL: 自搜索强化学习
⏶
86
QwenLong-L1:迈向基于强化学习的长上下文大型推理模型
⏶
86
SWE-rebench:软件工程智能体任务收集与去污评估的自动化管线
⏶
85
MMaDA: 多模态大型扩散语言模型
⏶
85
Pref-GRPO:基于成对偏好奖励的GRPO,用于稳定的文本到图像强化学习
⏶
80
推理还是记忆化?数据污染导致的强化学习结果不可靠
⏶
77
TreePO:通过启发式树形建模弥合策略优化、有效性和推理效率之间的差距
⏶
77
通过推理分解实现自奖励的视觉语言模型
⏶
76
MiMo:释放语言模型的推理潜力——从预训练到后训练
⏶
76
SimpleTIR:用于多轮工具集成推理的端到端强化学习
⏶
74
LLaVA-Critic-R1:你的批评模型秘密是一个强大的策略模型
⏶
71
VisionThink:通过强化学习实现的智能高效视觉语言模型
⏶
66
RM-R1:奖励建模即推理
⏶
66
数学推理能否提升通用LLM能力?理解LLM推理的可迁移性
⏶
62
ZeroSearch:无需搜索即可激发 LLMs 的搜索能力
⏶
62
REASONING GYM:推理环境,用于具备可验证奖励的强化学习
⏶
61
Agent Lightning:使用强化学习训练任意AI智能体
⏶
60
ReTool:用于LLM中战略工具使用的强化学习
⏶
60
扩展推理,失去控制:评估大型推理模型中的指令遵循能力
⏶
60
马吉斯特拉
⏶
59
视觉三元统一强化学习:一种强化学习看遍所有
⏶
59
MMSearch-R1:激励LMM进行搜索
⏶
57
AdaCoT:基于强化学习的帕累托最优自适应思维链触发
⏶
56
LongWriter-Zero:通过强化学习掌握超长文本生成
⏶
56
ARC-混元-视频-7B:真实世界短视频的结构化视频理解
⏶
55
Skywork R1V2:多模态混合强化学习用于推理
⏶
53
视觉规划:只用图像思考
⏶
52
Skywork Open Reasoner 1 技术报告
⏶
52
观看、聆听、记忆和推理:一个拥有长期记忆的多模态智能体
⏶
51
UniVG-R1: 结合强化学习的推理引导通用视觉定位
⏶
51
Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理
⏶
51
SynthRL:通过可验证数据合成扩展视觉推理
⏶
51
ComfyUI-R1: 探索用于工作流生成的推理模型
⏶
50
Thinkless:大语言模型学习何时思考
⏶
49
DeepCritic:使用大型语言模型进行审慎批判
⏶
47
迈向大型语言模型训练后统一视角
⏶
46
FlowReasoner:增强查询级元代理
⏶
46
从跨域视角再探用于大语言模型推理的强化学习
⏶
45
通过 GRPO 对多模态 LLM 推理进行无监督后训练
⏶
45
ZeroGUI:以零人力成本自动化在线GUI学习
⏶
45
SRPO:通过反思感知强化学习增强多模态大语言模型推理
⏶
45
可追溯证据增强的视觉接地推理:评估与方法
⏶
44
VL-Cogito:用于高级多模态推理的渐进式课程强化学习
⏶
43
HardTests:为LLM编码合成高质量测试用例
⏶
43
OctoThinker:训练中期激励强化学习扩展
⏶
43
SPIRAL:通过零和博弈上的自博弈,利用多智能体多回合强化学习激励推理
⏶
42
VL-Rethinker:使用强化学习激励视觉-语言模型的自我反思
⏶
42
VerIPO:通过验证器引导的迭代策略优化在 Video-LLMs 中培养长程推理能力
⏶
42
Ego-R1:用于超长第一人称视频推理的工具思维链
⏶
42
第一部分:是技巧还是陷阱?深入探讨用于大型语言模型推理的强化学习
⏶
40
OpenThinkIMG:通过视觉工具强化学习来学习用图像思考
⏶
39
缺失前提加剧过度思考:推理模型是否正在丧失批判性思维能力?
⏶
39
CriticLean: 评论家引导的强化学习,用于数学形式化
⏶
39
Klear-Reasoner:通过梯度保留剪裁策略优化提升推理能力
⏶
38
X-Omni:强化学习让离散自回归图像生成模型再次伟大
⏶
38
Robix:机器人交互、推理和规划的统一模型
⏶
37
AWorld:为智能体AI编排训练配方
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
36
以少驭真:高效多模态推理的高价值数据选择
⏶
35
用于LLMs的基于强化学习的智能体推理和工具集成
⏶
35
cadrille: 基于在线强化学习的多模态 CAD 重建
⏶
34
奖励推理模型
⏶
34
VIKI-R:通过强化学习协调具身多智能体协作
⏶
34
LAPO:通过长度自适应策略优化内化推理效率
⏶
33
Llama-Nemotron: 高效推理模型
⏶
33
EmbRACE-3K:复杂环境中的具身推理与行动
⏶
32
利用基于长度的自适应奖励塑形学习高效推理
⏶
31
RuleReasoner: 通过领域感知动态采样强化基于规则的推理
⏶
31
RLVER: 具有可验证情感奖励的强化学习,用于共情智能体
⏶
30
VisualQuality-R1:通过强化学习排序实现的基于推理的图像质量评估
⏶
30
AceReason-Nemotron: 通过强化学习提升数学和代码推理能力
⏶
30
格式和长度的替代信号:通过强化学习解决无标准答案的数学问题
⏶
30
ARIA:通过意图驱动奖励聚合训练语言智能体
⏶
29
DanceGRPO:在视觉生成中释放 GRPO 的力量
⏶
28
Robot-R1:用于增强机器人具身推理的强化学习
⏶
28
HierSearch:一个集成本地和网络搜索的分层企业深度搜索框架
⏶
27
机器心智意象:通过潜在视觉令牌赋能多模态推理
⏶
27
ReasonFlux-PRM:大型语言模型中长链式思考推理的轨迹感知PRM
⏶
27
GRPO-CARE:多模态推理的一致性感知强化学习
⏶
27
视觉中的强化学习:一项综述
⏶
27
Reasoning Vectors:通过任务算术转移思维链能力
⏶
26
GoT-R1: 通过强化学习释放 MLLM 用于视觉生成的推理能力
⏶
26
无需验证器强化通用推理
⏶
26
探索性推理:一个熵视角
⏶
26
Pass@k 训练:用于自适应平衡大型推理模型的探索与利用