强化学习

分享即关怀：利用集体 RL 经验共享进行高效 LM 后训练

分享即关怀：利用集体 RL 经验共享进行高效 LM 后训练

DeepSeek-R1：通过强化学习激励LLM的推理能力

DeepSeek-R1：通过强化学习激励LLM的推理能力

组序列策略优化

反思、重试、奖励：基于强化学习的LLM自我改进

反思、重试、奖励：基于强化学习的LLM自我改进

通过早期经验进行代理学习

面向 LLM 的代理强化学习景观：一篇调查报告

面向 LLM 的代理强化学习景观：一篇调查报告

GLM-4.5：智能体、推理和编码（ARC）基础模型

GLM-4.5：智能体、推理和编码（ARC）基础模型

大型推理模型的强化学习调研

关于SFT泛化性的研究：一个带有奖励修正的强化学习视角

关于SFT泛化性的研究：一个带有奖励修正的强化学习视角

QeRL：超越效率——面向大型语言模型的量化增强强化学习

将RL扩展到长视频

自主强化策略优化

开放式生成的逆向工程推理

DAPO：大规模开源LLM强化学习系统

DAPO：大规模开源LLM强化学习系统

ProRL：长期强化学习拓展大型语言模型的推理边界

ProRL：长期强化学习拓展大型语言模型的推理边界

WebWatcher：突破视觉语言深度研究代理新前沿

WebWatcher：突破视觉语言深度研究代理新前沿

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我改进

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我改进

置信度即所需一切：语言模型的少样本强化学习微调

置信度即所需一切：语言模型的少样本强化学习微调

GUI-G^2：用于GUI对齐的高斯奖励建模

GUI-G^2：用于GUI对齐的高斯奖励建模

用于推理语言模型的强化学习熵机制

用于推理语言模型的强化学习熵机制

快手 Keye-VL 技术报告

快手 Keye-VL 技术报告

EPO：熵正则化策略优化用于 LLM 智能体强化学习

EPO：熵正则化策略优化用于 LLM 智能体强化学习

UI-TARS-2 技术报告：通过多轮强化学习推进 GUI 代理

UI-TARS-2 技术报告：通过多轮强化学习推进 GUI 代理

ReasonRank：通过强大的推理能力赋能段落排序

ReasonRank：通过强大的推理能力赋能段落排序

灵枢：面向统一多模态医学理解与推理的通用基础模型

灵枢：面向统一多模态医学理解与推理的通用基础模型

Seed-Prover：用于自动定理证明的深度和广度推理

Seed-Prover：用于自动定理证明的深度和广度推理

FlowRL: 匹配LLM推理的奖励分布

FlowRL: 匹配LLM推理的奖励分布

Parallel-R1：通过强化学习实现并行思考

Parallel-R1：通过强化学习实现并行思考

使用一个训练样本对大型语言模型进行推理的强化学习

使用一个训练样本对大型语言模型进行推理的强化学习

SciReasoner: 奠定跨学科的科学推理基础

SciReasoner: 奠定跨学科的科学推理基础

MMaDA: 多模态大型扩散语言模型

MMaDA: 多模态大型扩散语言模型

Table-R1：面向表格推理的推理时缩放

Table-R1：面向表格推理的推理时缩放

SSRL: 自搜索强化学习

Pref-GRPO：基于成对偏好奖励的GRPO，用于稳定的文本到图像强化学习

Pref-GRPO：基于成对偏好奖励的GRPO，用于稳定的文本到图像强化学习

在流式代理系统中优化以实现有效的规划和工具使用

在流式代理系统中优化以实现有效的规划和工具使用

学习在离策略指导下进行推理

QwenLong-L1：迈向基于强化学习的长上下文大型推理模型

QwenLong-L1：迈向基于强化学习的长上下文大型推理模型

SWE-rebench：软件工程智能体任务收集与去污评估的自动化管线

SWE-rebench：软件工程智能体任务收集与去污评估的自动化管线

推理还是记忆化？数据污染导致的强化学习结果不可靠

推理还是记忆化？数据污染导致的强化学习结果不可靠

用于 LLM 代理强化学习的树搜索

用于 LLM 代理强化学习的树搜索

通过推理分解实现自奖励的视觉语言模型

通过推理分解实现自奖励的视觉语言模型

LLaVA-Critic-R1：你的批评模型秘密是一个强大的策略模型

LLaVA-Critic-R1：你的批评模型秘密是一个强大的策略模型

SimpleTIR：用于多轮工具集成推理的端到端强化学习

SimpleTIR：用于多轮工具集成推理的端到端强化学习

MiMo：释放语言模型的推理潜力——从预训练到后训练

MiMo：释放语言模型的推理潜力——从预训练到后训练

TreePO：通过启发式树形建模弥合策略优化、有效性和推理效率之间的差距

TreePO：通过启发式树形建模弥合策略优化、有效性和推理效率之间的差距

机器人学习：教程

数学推理能否提升通用LLM能力？理解LLM推理的可迁移性

数学推理能否提升通用LLM能力？理解LLM推理的可迁移性

WebExplorer：用于训练长时序网页代理的探索与演进

WebExplorer：用于训练长时序网页代理的探索与演进

SimpleVLA-RL: 通过强化学习扩展 VLA 训练

SimpleVLA-RL: 通过强化学习扩展 VLA 训练

VisionThink：通过强化学习实现的智能高效视觉语言模型

VisionThink：通过强化学习实现的智能高效视觉语言模型

迈向大型语言模型训练后统一视角

迈向大型语言模型训练后统一视角

REASONING GYM：推理环境，用于具备可验证奖励的强化学习

REASONING GYM：推理环境，用于具备可验证奖励的强化学习

Agent Lightning：使用强化学习训练任意AI智能体

Agent Lightning：使用强化学习训练任意AI智能体

ZeroSearch：无需搜索即可激发 LLMs 的搜索能力

ZeroSearch：无需搜索即可激发 LLMs 的搜索能力

更多思考，更少准确性？论视觉语言模型中推理的双重性质

更多思考，更少准确性？论视觉语言模型中推理的双重性质

马吉斯特拉

预训练数据上的强化学习

MMSearch-R1：激励LMM进行搜索

MMSearch-R1：激励LMM进行搜索

VLA-RFT：在世界模拟器中具有验证奖励的视觉-语言-动作强化微调

VLA-RFT：在世界模拟器中具有验证奖励的视觉-语言-动作强化微调

ReTool：用于LLM中战略工具使用的强化学习

ReTool：用于LLM中战略工具使用的强化学习

扩展推理，失去控制：评估大型推理模型中的指令遵循能力

扩展推理，失去控制：评估大型推理模型中的指令遵循能力

TaTToo：用于表格推理中测试时间扩展的工具接地思维 PRM

TaTToo：用于表格推理中测试时间扩展的工具接地思维 PRM

视觉三元统一强化学习：一种强化学习看遍所有

视觉三元统一强化学习：一种强化学习看遍所有

Mini-o3：扩展用于视觉搜索的推理模式和交互回合

Mini-o3：扩展用于视觉搜索的推理模式和交互回合

AdaCoT：基于强化学习的帕累托最优自适应思维链触发

AdaCoT：基于强化学习的帕累托最优自适应思维链触发

Reasoning Vectors：通过任务算术转移思维链能力

Reasoning Vectors：通过任务算术转移思维链能力

Tina：通过 LoRA 实现的微小推理模型

Tina：通过 LoRA 实现的微小推理模型

视觉规划：只用图像思考

LongWriter-Zero：通过强化学习掌握超长文本生成

LongWriter-Zero：通过强化学习掌握超长文本生成

ARC-混元-视频-7B：真实世界短视频的结构化视频理解

ARC-混元-视频-7B：真实世界短视频的结构化视频理解

观看、聆听、记忆和推理：一个拥有长期记忆的多模态智能体

观看、聆听、记忆和推理：一个拥有长期记忆的多模态智能体

AgentGym-RL：通过多轮强化学习训练 LLM 智能体以进行长视界决策

AgentGym-RL：通过多轮强化学习训练 LLM 智能体以进行长视界决策

大型推理模型从错误思考中学习更好的对齐

大型推理模型从错误思考中学习更好的对齐

DeepCritic：使用大型语言模型进行审慎批判

DeepCritic：使用大型语言模型进行审慎批判

Skywork Open Reasoner 1 技术报告

Skywork Open Reasoner 1 技术报告

注意力照亮大模型推理：预规划与锚定节奏赋能细粒度策略优化

注意力照亮大模型推理：预规划与锚定节奏赋能细粒度策略优化

Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理

Pixel Reasoner: 通过好奇心驱动的强化学习激励像素空间推理

ComfyUI-R1: 探索用于工作流生成的推理模型

ComfyUI-R1: 探索用于工作流生成的推理模型

UniVG-R1: 结合强化学习的推理引导通用视觉定位

UniVG-R1: 结合强化学习的推理引导通用视觉定位

SynthRL：通过可验证数据合成扩展视觉推理

SynthRL：通过可验证数据合成扩展视觉推理

TruthRL：通过强化学习激励诚实的LLM

TruthRL：通过强化学习激励诚实的LLM

Thinkless：大语言模型学习何时思考

Thinkless：大语言模型学习何时思考

SPIRAL：通过零和博弈上的自博弈，利用多智能体多回合强化学习激励推理

SPIRAL：通过零和博弈上的自博弈，利用多智能体多回合强化学习激励推理

从跨域视角再探用于大语言模型推理的强化学习

从跨域视角再探用于大语言模型推理的强化学习

Phi-4-Mini-Reasoning：探索小型推理语言模型在数学领域的极限

Phi-4-Mini-Reasoning：探索小型推理语言模型在数学领域的极限

SRPO：通过反思感知强化学习增强多模态大语言模型推理

SRPO：通过反思感知强化学习增强多模态大语言模型推理

可追溯证据增强的视觉接地推理：评估与方法

可追溯证据增强的视觉接地推理：评估与方法

Robix：机器人交互、推理和规划的统一模型

Robix：机器人交互、推理和规划的统一模型

ToolRL：奖励是工具学习的全部需求

ToolRL：奖励是工具学习的全部需求

FlowReasoner：增强查询级元代理

FlowReasoner：增强查询级元代理

OctoThinker：训练中期激励强化学习扩展

OctoThinker：训练中期激励强化学习扩展

UI-S1：通过半在线强化学习推进 GUI 自动化

UI-S1：通过半在线强化学习推进 GUI 自动化

通过 GRPO 对多模态 LLM 推理进行无监督后训练

通过 GRPO 对多模态 LLM 推理进行无监督后训练

VL-Cogito：用于高级多模态推理的渐进式课程强化学习

VL-Cogito：用于高级多模态推理的渐进式课程强化学习

第一部分：是技巧还是陷阱？深入探讨用于大型语言模型推理的强化学习

第一部分：是技巧还是陷阱？深入探讨用于大型语言模型推理的强化学习

背包强化学习：通过优化预算分配实现大型语言模型探索的解锁

背包强化学习：通过优化预算分配实现大型语言模型探索的解锁

ZeroGUI：以零人力成本自动化在线GUI学习

ZeroGUI：以零人力成本自动化在线GUI学习

使用大型语言模型进行符号图形编程

使用大型语言模型进行符号图形编程

T2I-R1：协同语义级和词元级CoT强化图像生成

T2I-R1：协同语义级和词元级CoT强化图像生成

Video-LMM 训练后：深入了解大型多模态模型的视频推理

Video-LMM 训练后：深入了解大型多模态模型的视频推理

使用语言模型学习自适应并行推理

使用语言模型学习自适应并行推理

HardTests：为LLM编码合成高质量测试用例

HardTests：为LLM编码合成高质量测试用例

Ego-R1：用于超长第一人称视频推理的工具思维链

Ego-R1：用于超长第一人称视频推理的工具思维链

CriticLean: 评论家引导的强化学习，用于数学形式化

CriticLean: 评论家引导的强化学习，用于数学形式化

Llama-Nemotron: 高效推理模型

Llama-Nemotron: 高效推理模型