AI论文精选
强化学习
⏶
196
反思、重试、奖励:基于强化学习的LLM自我改进
⏶
184
GLM-4.1V-Thinking: 迈向通用多模态推理,借助可扩展强化学习
⏶
139
将RL扩展到长视频
⏶
124
ProRL:长期强化学习拓展大型语言模型的推理边界
⏶
123
置信度即所需一切:语言模型的少样本强化学习微调
⏶
121
快手 Keye-VL 技术报告
⏶
120
用于推理语言模型的强化学习熵机制
⏶
118
强化学习真的能激励LLM在基础模型之上展现推理能力吗?
⏶
105
灵枢:面向统一多模态医学理解与推理的通用基础模型
⏶
91
Table-R1:面向表格推理的推理时缩放
⏶
86
QwenLong-L1:迈向基于强化学习的长上下文大型推理模型
⏶
86
SWE-rebench:软件工程智能体任务收集与去污评估的自动化管线
⏶
85
MMaDA: 多模态大型扩散语言模型
⏶
77
推理还是记忆化?数据污染导致的强化学习结果不可靠
⏶
76
MiMo:释放语言模型的推理潜力——从预训练到后训练
⏶
68
VisionThink:通过强化学习实现的智能高效视觉语言模型
⏶
66
RM-R1:奖励建模即推理
⏶
66
数学推理能否提升通用LLM能力?理解LLM推理的可迁移性
⏶
62
ZeroSearch:无需搜索即可激发 LLMs 的搜索能力
⏶
62
REASONING GYM:推理环境,用于具备可验证奖励的强化学习
⏶
60
ReTool:用于LLM中战略工具使用的强化学习
⏶
60
扩展推理,失去控制:评估大型推理模型中的指令遵循能力
⏶
60
马吉斯特拉
⏶
59
视觉三元统一强化学习:一种强化学习看遍所有
⏶
59
MMSearch-R1:激励LMM进行搜索
⏶
57
AdaCoT:基于强化学习的帕累托最优自适应思维链触发
⏶
56
LongWriter-Zero:通过强化学习掌握超长文本生成
⏶
55
Skywork R1V2:多模态混合强化学习用于推理
⏶
53
视觉规划:只用图像思考
⏶
52
Skywork Open Reasoner 1 技术报告
⏶
51
UniVG-R1: 结合强化学习的推理引导通用视觉定位
⏶
51
Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理
⏶
51
SynthRL:通过可验证数据合成扩展视觉推理
⏶
51
ComfyUI-R1: 探索用于工作流生成的推理模型
⏶
50
Thinkless:大语言模型学习何时思考
⏶
49
DeepCritic:使用大型语言模型进行审慎批判
⏶
46
FlowReasoner:增强查询级元代理
⏶
46
从跨域视角再探用于大语言模型推理的强化学习
⏶
45
通过 GRPO 对多模态 LLM 推理进行无监督后训练
⏶
45
ZeroGUI:以零人力成本自动化在线GUI学习
⏶
45
SRPO:通过反思感知强化学习增强多模态大语言模型推理
⏶
45
可追溯证据增强的视觉接地推理:评估与方法
⏶
43
HardTests:为LLM编码合成高质量测试用例
⏶
43
OctoThinker:训练中期激励强化学习扩展
⏶
43
SPIRAL:通过零和博弈上的自博弈,利用多智能体多回合强化学习激励推理
⏶
42
VL-Rethinker:使用强化学习激励视觉-语言模型的自我反思
⏶
42
VerIPO:通过验证器引导的迭代策略优化在 Video-LLMs 中培养长程推理能力
⏶
42
Ego-R1:用于超长第一人称视频推理的工具思维链
⏶
40
OpenThinkIMG:通过视觉工具强化学习来学习用图像思考
⏶
39
缺失前提加剧过度思考:推理模型是否正在丧失批判性思维能力?
⏶
39
CriticLean: 评论家引导的强化学习,用于数学形式化
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
36
以少驭真:高效多模态推理的高价值数据选择
⏶
35
用于LLMs的基于强化学习的智能体推理和工具集成
⏶
35
cadrille: 基于在线强化学习的多模态 CAD 重建
⏶
34
奖励推理模型
⏶
34
VIKI-R:通过强化学习协调具身多智能体协作
⏶
33
Llama-Nemotron: 高效推理模型
⏶
33
EmbRACE-3K:复杂环境中的具身推理与行动
⏶
32
利用基于长度的自适应奖励塑形学习高效推理
⏶
31
RuleReasoner: 通过领域感知动态采样强化基于规则的推理
⏶
31
RLVER: 具有可验证情感奖励的强化学习,用于共情智能体
⏶
30
VisualQuality-R1:通过强化学习排序实现的基于推理的图像质量评估
⏶
30
AceReason-Nemotron: 通过强化学习提升数学和代码推理能力
⏶
30
格式和长度的替代信号:通过强化学习解决无标准答案的数学问题
⏶
30
ARIA:通过意图驱动奖励聚合训练语言智能体
⏶
29
DanceGRPO:在视觉生成中释放 GRPO 的力量
⏶
28
Robot-R1:用于增强机器人具身推理的强化学习
⏶
27
机器心智意象:通过潜在视觉令牌赋能多模态推理
⏶
27
ReasonFlux-PRM:大型语言模型中长链式思考推理的轨迹感知PRM
⏶
27
GRPO-CARE:多模态推理的一致性感知强化学习
⏶
26
GoT-R1: 通过强化学习释放 MLLM 用于视觉生成的推理能力
⏶
26
无需验证器强化通用推理
⏶
26
探索性推理:一个熵视角
⏶
25
GTA1:GUI 测试时缩放代理
⏶
25
MindJourney:利用世界模型进行测试时扩展以实现空间推理
⏶
24
基于Itakura-Saito损失的风险规避强化学习
⏶
24
Satori-SWE:面向样本高效软件工程的进化式测试时缩放
⏶
24
VLM中针对图像偏好的听众奖励式思维
⏶
23
CPGD: 迈向用于语言模型的稳定基于规则强化学习
⏶
23
Mind the Gap: 弥合思维跳跃鸿沟以改进思维链调优
⏶
23
AReaL:一个用于语言推理的大规模异步强化学习系统
⏶
23
AceReason-Nemotron 1.1:SFT与RL协同赋能数学与代码推理
⏶
22
J1:通过强化学习激励LLM作为判断者进行思考
⏶
22
General-Reasoner:提升跨领域 LLM 推理能力
⏶
22
通过强化学习协同演化大语言模型编码器和单元测试器
⏶
22
超越Token的思考:从类脑智能到通用人工智能的认知基础及其社会影响
⏶
20
lmgame-Bench:LLMs 玩游戏水平如何?
⏶
20
超越蒸馏:借助极简规则强化学习推动医学大模型推理的极限
⏶
20
AV-Reasoner:改进和基准测试 MLLM 的线索导向音视频计数
⏶
19
WebDancer: 迈向自主信息寻求代理
⏶
18
高效推理模型:综述
⏶
18
WebAgent-R1:通过端到端多轮强化学习训练网页代理
⏶
18
穿越山谷:小型语言模型长CoT(思维链)高效训练之路
⏶
18
CoRT:思维中的代码集成推理
⏶
17
从人类反馈中进行纳什学习
⏶
17
VerifyBench:面向大型语言模型的基于参考的奖励系统的基准测试
⏶
17
Omni-R1:基于双系统协作实现全模态推理的强化学习
⏶
17
REARANK:通过强化学习的推理重排序代理
⏶
16
TinyLLaVA-Video-R1:面向更小型的用于视频推理的LMM
⏶
16
AM-Thinking-v1:推进 32B 规模推理能力的前沿
⏶
16
MLE-Dojo:赋能机器学习工程中大型语言模型智能体的交互式环境
⏶
15
SPC:通过对抗性博弈演化自博弈评论员以增强LLM推理能力
⏶
15
借星引航:大型语言模型在后训练和测试阶段扩展中从奖励中学习的综述
⏶
15
Visionary-R1:使用强化学习缓解视觉推理中的捷径