AI论文精选
监督微调
⏶
86
QwenLong-L1:迈向基于强化学习的长上下文大型推理模型
⏶
66
Spatial-MLLM:提升MLLM在基于视觉的空间智能方面的能力
⏶
51
UniVG-R1: 结合强化学习的推理引导通用视觉定位
⏶
49
DeepCritic:使用大型语言模型进行审慎批判
⏶
43
Phi-4-reasoning 技术报告
⏶
40
OpenThinkIMG:通过视觉工具强化学习来学习用图像思考
⏶
39
Phi-4-Mini-Reasoning:探索小型推理语言模型在数学领域的极限
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
34
MM-IFEngine:面向多模态指令跟随
⏶
33
Llama-Nemotron: 高效推理模型
⏶
32
Qwen3 Embedding:通过基础模型改进文本嵌入和重排序
⏶
28
cadrille: 基于在线强化学习的多模态 CAD 重建
⏶
25
Jigsaw-R1:基于拼图的规则化视觉强化学习研究
⏶
23
Satori-SWE:面向样本高效软件工程的进化式测试时缩放
⏶
23
UniRL: 基于监督学习与强化学习的自我改进统一多模态模型
⏶
18
WebDancer: 迈向自主信息寻求代理
⏶
17
大型语言模型能否帮助多模态语言分析?MMLA:综合基准
⏶
17
迈向 LLM 中的安全推理:AI 智能体式审议用于策略嵌入式 CoT 数据创建
⏶
16
AM-Thinking-v1:推进 32B 规模推理能力的前沿
⏶
16
MLE-Dojo:赋能机器学习工程中大型语言模型智能体的交互式环境
⏶
15
对先验的深思:大型语言模型在知识图谱上的可信推理
⏶
14
X-Reasoner:面向跨模态和领域的通用推理
⏶
13
如何增强大型推理模型的安全性:一项实证研究
⏶
13
完成胜于完美:通过结构化多轮分解解锁高效推理
⏶
12
DeepMath-103K:一个大规模、具有挑战性、已净化且可验证的数学数据集,用于推进推理
⏶
12
SimpleAR:通过预训练、SFT和RL推动自回归视觉生成的前沿
⏶
11
用于矢量图形生成的渲染感知强化学习
⏶
11
像经济学家一样推理:对经济问题进行后训练可诱导大型语言模型 (LLMs) 产生战略性泛化
⏶
10
合成数据 RL:任务定义就够了
⏶
10
ReasonGen-R1:基于SFT和RL的自回归图像生成模型思维链(CoT)
⏶
8
Think-RM:在生成式奖励模型中实现长周期推理
⏶
8
STAR-R1:通过强化多模态大语言模型实现空间变换推理
⏶
7
SafeKey: 增强顿悟时刻洞察以进行安全推理
⏶
7
Afterburner: 强化学习促进自我改进的代码效率优化
⏶
6
Transformer Copilot:在LLM微调中从错误日志中学习
⏶
5
SLiC-HF:基于人类反馈的序列似然校准
⏶
4
大型语言模型何时承认错误?理解模型信念在撤回中的作用
⏶
4
MedAgentGym:大规模训练用于基于代码的医学推理的 LLM 代理
⏶
3
UFT:统一监督与强化微调
⏶
3
TRIDENT: 通过三维多样化红队对抗数据合成,增强大语言模型安全性
⏶
3
MaskSearch:一个通用预训练框架以增强智能体搜索能力
⏶
2
机器的语用心智:追溯大型语言模型中语用能力的涌现
⏶
2
揭开真相的面纱:降秩后涌现主权重,用于推理导向的监督微调