AI论文精选
强化学习
⏶
170
反思、重试、奖励:基于强化学习的LLM自我改进
⏶
118
强化学习真的能激励LLM在基础模型之上展现推理能力吗?
⏶
116
用于推理语言模型的强化学习熵机制
⏶
115
ProRL:长期强化学习拓展大型语言模型的推理边界
⏶
88
Table-R1:面向表格推理的推理时缩放
⏶
86
QwenLong-L1:迈向基于强化学习的长上下文大型推理模型
⏶
85
MMaDA: 多模态大型扩散语言模型
⏶
85
SWE-rebench:软件工程智能体任务收集与去污评估的自动化管线
⏶
76
MiMo:释放语言模型的推理潜力——从预训练到后训练
⏶
66
RM-R1:奖励建模即推理
⏶
62
ZeroSearch:无需搜索即可激发 LLMs 的搜索能力
⏶
60
ReTool:用于LLM中战略工具使用的强化学习
⏶
60
扩展推理,失去控制:评估大型推理模型中的指令遵循能力
⏶
59
视觉三元统一强化学习:一种强化学习看遍所有
⏶
59
REASONING GYM:推理环境,用于具备可验证奖励的强化学习
⏶
57
AdaCoT:基于强化学习的帕累托最优自适应思维链触发
⏶
55
Skywork R1V2:多模态混合强化学习用于推理
⏶
53
视觉规划:只用图像思考
⏶
52
Skywork Open Reasoner 1 技术报告
⏶
51
UniVG-R1: 结合强化学习的推理引导通用视觉定位
⏶
51
Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理
⏶
50
Thinkless:大语言模型学习何时思考
⏶
50
SynthRL:通过可验证数据合成扩展视觉推理
⏶
49
DeepCritic:使用大型语言模型进行审慎批判
⏶
46
FlowReasoner:增强查询级元代理
⏶
45
通过 GRPO 对多模态 LLM 推理进行无监督后训练
⏶
45
ZeroGUI:以零人力成本自动化在线GUI学习
⏶
42
VL-Rethinker:使用强化学习激励视觉-语言模型的自我反思
⏶
42
VerIPO:通过验证器引导的迭代策略优化在 Video-LLMs 中培养长程推理能力
⏶
42
HardTests:为LLM编码合成高质量测试用例
⏶
40
OpenThinkIMG:通过视觉工具强化学习来学习用图像思考
⏶
39
缺失前提加剧过度思考:推理模型是否正在丧失批判性思维能力?
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
35
用于LLMs的基于强化学习的智能体推理和工具集成
⏶
34
奖励推理模型
⏶
33
Llama-Nemotron: 高效推理模型
⏶
32
利用基于长度的自适应奖励塑形学习高效推理
⏶
31
SRPO:通过反思感知强化学习增强多模态大语言模型推理
⏶
30
VisualQuality-R1:通过强化学习排序实现的基于推理的图像质量评估
⏶
30
AceReason-Nemotron: 通过强化学习提升数学和代码推理能力
⏶
30
格式和长度的替代信号:通过强化学习解决无标准答案的数学问题
⏶
29
DanceGRPO:在视觉生成中释放 GRPO 的力量
⏶
28
cadrille: 基于在线强化学习的多模态 CAD 重建
⏶
28
ARIA:通过意图驱动奖励聚合训练语言智能体
⏶
26
GoT-R1: 通过强化学习释放 MLLM 用于视觉生成的推理能力
⏶
26
无需验证器强化通用推理
⏶
26
Robot-R1:用于增强机器人具身推理的强化学习
⏶
24
基于Itakura-Saito损失的风险规避强化学习
⏶
23
CPGD: 迈向用于语言模型的稳定基于规则强化学习
⏶
23
Mind the Gap: 弥合思维跳跃鸿沟以改进思维链调优
⏶
23
Satori-SWE:面向样本高效软件工程的进化式测试时缩放
⏶
22
J1:通过强化学习激励LLM作为判断者进行思考
⏶
22
General-Reasoner:提升跨领域 LLM 推理能力
⏶
22
通过强化学习协同演化大语言模型编码器和单元测试器
⏶
21
AReaL:一个用于语言推理的大规模异步强化学习系统
⏶
20
lmgame-Bench:LLMs 玩游戏水平如何?
⏶
20
AV-Reasoner:改进和基准测试 MLLM 的线索导向音视频计数
⏶
19
超越蒸馏:借助极简规则强化学习推动医学大模型推理的极限
⏶
18
高效推理模型:综述
⏶
18
WebAgent-R1:通过端到端多轮强化学习训练网页代理
⏶
18
WebDancer: 迈向自主信息寻求代理
⏶
17
从人类反馈中进行纳什学习
⏶
17
VerifyBench:面向大型语言模型的基于参考的奖励系统的基准测试
⏶
17
Omni-R1:基于双系统协作实现全模态推理的强化学习
⏶
17
REARANK:通过强化学习的推理重排序代理
⏶
16
TinyLLaVA-Video-R1:面向更小型的用于视频推理的LMM
⏶
16
AM-Thinking-v1:推进 32B 规模推理能力的前沿
⏶
16
MLE-Dojo:赋能机器学习工程中大型语言模型智能体的交互式环境
⏶
15
SPC:通过对抗性博弈演化自博弈评论员以增强LLM推理能力
⏶
15
借星引航:大型语言模型在后训练和测试阶段扩展中从奖励中学习的综述
⏶
15
Visionary-R1:使用强化学习缓解视觉推理中的捷径
⏶
15
DeepTheorem:通过自然语言和强化学习提升LLM用于定理证明的推理能力
⏶
14
X-Reasoner:面向跨模态和领域的通用推理
⏶
14
RLVR-World: 利用强化学习训练世界模型
⏶
14
思想增强策略优化:弥合外部指导与内部能力之间的差距
⏶
14
Time-R1: 迈向大语言模型中的全面时间推理
⏶
14
Active-O3:通过 GRPO 赋予多模态大语言模型主动感知能力
⏶
14
具有最优奖励基线的在策略强化学习
⏶
13
TinyV: 减少验证中的假阴性以改进LLM推理的强化学习
⏶
13
完成胜于完美:通过结构化多轮分解解锁高效推理
⏶
13
通过轮级信用分配强化LLM智能体的多轮推理能力
⏶
12
DeepMath-103K:一个大规模、具有挑战性、已净化且可验证的数学数据集,用于推进推理
⏶
12
让RL重拾价值:统一大模型推理器与验证器,提升推理时扩展性
⏶
12
GRIT: 教导MLLMs使用图像进行思考
⏶
12
G1: 通过强化学习自举视觉语言模型的感知和推理能力
⏶
12
通过强化学习实现的大型语言模型交错推理
⏶
11
帮助还是驱赶?奖励模型集成缓解但不能消除奖励黑客行为
⏶
11
INTELLECT-2:一个通过全球去中心化强化学习训练的推理模型
⏶
11
用于矢量图形生成的渲染感知强化学习
⏶
10
强化内外部知识协同推理,用于高效自适应搜索代理
⏶
10
用于评估和改进大型语言模型指令遵循的多维约束框架
⏶
10
利用生成游戏测量通用智能
⏶
10
ConvSearch-R1:通过强化学习结合推理,增强对话式搜索的查询重述
⏶
10
强化学习微调大语言模型中的小子网络
⏶
10
合成数据 RL:任务定义就够了
⏶
10
VisualToolAgent (VisTA):一个用于视觉工具选择的强化学习框架
⏶
10
VRAG-RL:赋能基于视觉感知的 RAG,通过强化学习迭代推理增强视觉丰富信息理解
⏶
9
DianJin-R1:评估与增强大型语言模型中的金融推理能力
⏶
9
RoboVerse:迈向可扩展和可泛化的机器人学习的统一平台、数据集和基准
⏶
9
WavReward:使用通用奖励评估器的语音对话模型
⏶
9
MLLM中的无需训练的推理和反思
⏶
9
利用程序分析反馈训练语言模型生成高质量代码
⏶
8
Omni-R1:你真的需要音频来微调你的音频大语言模型吗?
⏶
8
使用大型语言模型通过强化学习提升汇编代码性能
⏶
8
STAR-R1:通过强化多模态大语言模型实现空间变换推理