AI论文精选
监督微调
⏶
86
QwenLong-L1:迈向基于强化学习的长上下文大型推理模型
⏶
67
Spatial-MLLM:提升MLLM在基于视觉的空间智能方面的能力
⏶
66
数学推理能否提升通用LLM能力?理解LLM推理的可迁移性
⏶
61
Qwen3 Embedding:通过基础模型改进文本嵌入和重排序
⏶
51
UniVG-R1: 结合强化学习的推理引导通用视觉定位
⏶
49
DeepCritic:使用大型语言模型进行审慎批判
⏶
48
SpeakerVid-5M:一个用于音视频双人互动生成的大规模高质量数据集
⏶
46
如何训练您的LLM网络代理:一项统计诊断
⏶
43
Phi-4-reasoning 技术报告
⏶
40
OpenThinkIMG:通过视觉工具强化学习来学习用图像思考
⏶
39
Phi-4-Mini-Reasoning:探索小型推理语言模型在数学领域的极限
⏶
39
CriticLean: 评论家引导的强化学习,用于数学形式化
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
35
cadrille: 基于在线强化学习的多模态 CAD 重建
⏶
34
MM-IFEngine:面向多模态指令跟随
⏶
33
Llama-Nemotron: 高效推理模型
⏶
31
TaskCraft:自动生成代理任务
⏶
25
Jigsaw-R1:基于拼图的规则化视觉强化学习研究
⏶
24
Satori-SWE:面向样本高效软件工程的进化式测试时缩放
⏶
23
UniRL: 基于监督学习与强化学习的自我改进统一多模态模型
⏶
23
AceReason-Nemotron 1.1:SFT与RL协同赋能数学与代码推理
⏶
22
ShotBench: 视觉-语言模型中的专家级电影理解
⏶
21
Resa:通过SAEs实现透明推理模型
⏶
19
WebDancer: 迈向自主信息寻求代理
⏶
18
迈向 LLM 中的安全推理:AI 智能体式审议用于策略嵌入式 CoT 数据创建
⏶
18
穿越山谷:小型语言模型长CoT(思维链)高效训练之路
⏶
18
CoRT:思维中的代码集成推理
⏶
17
大型语言模型能否帮助多模态语言分析?MMLA:综合基准
⏶
17
QFFT:用于自适应推理的无问微调
⏶
16
AM-Thinking-v1:推进 32B 规模推理能力的前沿
⏶
16
MLE-Dojo:赋能机器学习工程中大型语言模型智能体的交互式环境
⏶
15
对先验的深思:大型语言模型在知识图谱上的可信推理
⏶
14
X-Reasoner:面向跨模态和领域的通用推理
⏶
13
如何增强大型推理模型的安全性:一项实证研究
⏶
13
完成胜于完美:通过结构化多轮分解解锁高效推理
⏶
13
以工具取代思考,使小型语言模型能够进行推理
⏶
12
DeepMath-103K:一个大规模、具有挑战性、已净化且可验证的数学数据集,用于推进推理
⏶
12
SimpleAR:通过预训练、SFT和RL推动自回归视觉生成的前沿
⏶
12
SRFT:一种结合监督学习和强化学习微调的单阶段推理方法
⏶
11
用于矢量图形生成的渲染感知强化学习
⏶
11
像经济学家一样推理:对经济问题进行后训练可诱导大型语言模型 (LLMs) 产生战略性泛化
⏶
11
基于多轮接地强化学习的高分辨率视觉推理
⏶
10
合成数据 RL:任务定义就够了
⏶
10
ReasonGen-R1:基于SFT和RL的自回归图像生成模型思维链(CoT)
⏶
10
复合AI系统优化:方法、挑战与未来方向综述
⏶
10
构建数学大语言模型的实用两阶段方案:利用SFT最大化准确率,以强化学习提升效率
⏶
9
关于小型推理语言模型的技术探讨
⏶
8
Think-RM:在生成式奖励模型中实现长周期推理
⏶
8
STAR-R1:通过强化多模态大语言模型实现空间变换推理
⏶
7
SafeKey: 增强顿悟时刻洞察以进行安全推理
⏶
7
Afterburner: 强化学习促进自我改进的代码效率优化
⏶
7
GUI-Reflection:赋能多模态GUI模型以自反思能力
⏶
7
通过推理时技术激发微调Transformer的能力
⏶
7
选择与合并:迈向基于大型语言模型的可适应和可扩展命名实体识别
⏶
6
Transformer Copilot:在LLM微调中从错误日志中学习
⏶
5
SLiC-HF:基于人类反馈的序列似然校准
⏶
5
鲁棒多模态大语言模型抵抗模态冲突
⏶
5
RedOne:揭示社交网络服务中的领域特定LLM后训练
⏶
4
大型语言模型何时承认错误?理解模型信念在撤回中的作用
⏶
4
MedAgentGym:大规模训练用于基于代码的医学推理的 LLM 代理
⏶
4
以消歧为中心的微调使企业工具调用型LLM更真实且风险更低
⏶
4
UGC-VideoCaptioner:一个全方位的 UGC 视频细节描述模型与新基准
⏶
3
UFT:统一监督与强化微调
⏶
3
TRIDENT: 通过三维多样化红队对抗数据合成,增强大语言模型安全性
⏶
3
MaskSearch:一个通用预训练框架以增强智能体搜索能力
⏶
3
学习强化学习无法做到的:针对最难问题的交错在线微调
⏶
3
RetFiner:一种用于视网膜基础模型的视觉-语言精炼方案
⏶
3
Tower+:弥合多语言LLM中的通用性与翻译专业化
⏶
2
机器的语用心智:追溯大型语言模型中语用能力的涌现
⏶
2
揭开真相的面纱:降秩后涌现主权重,用于推理导向的监督微调
⏶
2
EVOREFUSE:用于评估和缓解大型语言模型对伪恶意指令过度拒绝的演化式提示优化
⏶
2
RePIC:面向多模态语言模型的个性化强化后训练