AI论文精选
大型语言模型
⏶
341
A.S.E:评估人工智能生成代码安全性的存储库级别基准
⏶
302
组序列策略优化
⏶
299
Qwen3 技术报告
⏶
268
弱驱动学习:弱智能体如何让强智能体变得更强
⏶
256
大型语言模型的语境工程综述
⏶
216
VESPO:用于稳定离线策略 LLM 训练的变分序列级软策略优化
⏶
207
胡言乱语学:用深度解读胡言乱语挑战大型语言模型
⏶
197
Moltbook 后的恶魔:自我演化 AI 社会中不断消失的人类中心安全性
⏶
195
视频思考:视频生成作为一种有前途的多模态推理范式
⏶
190
大语言模型的代理推理 (Agentic Reasoning)
⏶
187
大模型能帮你清理烂摊子吗?基于大模型的应用级数据准备综述
⏶
183
超越二八法则:高熵少数词元驱动LLM推理中的有效强化学习
⏶
179
大型推理模型的强化学习调研
⏶
169
ROOT: 神经网络训练的鲁棒正交优化器
⏶
157
通用智能体记忆:深度研究
⏶
153
MemOS: 专为AI系统设计的内存操作系统
⏶
153
自主强化策略优化
⏶
147
FASA:频率感知稀疏注意力机制
⏶
144
将AI效率从模型中心转向数据中心压缩
⏶
144
面向大语言模型推理:内部概率与自洽性桥接的理论研究
⏶
143
奖励稀缺:旨在提升大语言模型创造性问题解决能力的唯一性感知强化学习
⏶
139
明天它还会是真的吗?多语言常青问题分类以提高可信问答
⏶
136
PRIMA.CPP:加速低资源日常家庭集群上700亿参数规模LLM的推理
⏶
131
置信度即所需一切:语言模型的少样本强化学习微调
⏶
127
Chain-of-Agents:通过多智能体蒸馏和智能体强化学习实现端到端智能体基础模型
⏶
126
拖放式LLM:零样本提示到权重
⏶
120
Paper2Code:从机器学习科学论文中自动化生成代码
⏶
113
多智能体系统中的潜在协作
⏶
110
通过持续预训练扩展代理
⏶
110
VIDEOP2R: 从感知到推理的视频理解
⏶
109
WideSearch:对代理广域信息搜索的基准测试
⏶
109
当模型说谎时,我们学习:使用 PsiloQA 进行多语言跨度级幻觉检测
⏶
107
LightMem:轻量级高效内存增强生成
⏶
107
ToolOrchestra: 通过高效的模型和工具编排提升智能
⏶
106
MobilityBench:评估现实世界出行场景中路线规划智能体的基准测试
⏶
105
LongCodeZip:压缩代码语言模型的长上下文
⏶
99
Golden Goose:从不可验证的网络文本中合成无限 RLVR 任务的简单技巧
⏶
96
使用一个训练样本对大型语言模型进行推理的强化学习
⏶
95
DITING:用于基准测试网络小说翻译的多代理评估框架
⏶
93
SSRL: 自搜索强化学习
⏶
93
视频模型是零样本学习者和推理者
⏶
93
WideSeek-R1:通过多智能体强化学习探索广泛信息寻求的宽度扩展
⏶
93
论扩展大语言模型终端能力的数据工程
⏶
91
Cache-to-Cache:大型语言模型之间的直接语义通信
⏶
90
DeepAnalyze:用于自主数据科学的智能体大型语言模型
⏶
89
在流式代理系统中优化以实现有效的规划和工具使用
⏶
89
使用大型语言模型稳定强化学习:公式与实践
⏶
88
推理还是记忆化?数据污染导致的强化学习结果不可靠
⏶
87
CUDA Agent:用于高性能 CUDA 算子生成的大规模智能体强化学习
⏶
86
用于 LLM 代理强化学习的树搜索
⏶
86
MOOSE-Star: 通过打破复杂性障碍,为科学发现解锁可处理的训练
⏶
84
迈向具有深度推理能力的智能体RAG:LLM中RAG-推理系统综述
⏶
83
GEM:用于Agentic LLM的Gym
⏶
82
BAPO:通过自适应剪裁的平衡策略优化,稳定 LLM 的离策略强化学习
⏶
81
利用检索和代码工具将LLM智能体蒸馏到小模型
⏶
81
迷失在故事中:大语言模型长故事生成中的一致性缺陷
⏶
78
WebExplorer:用于训练长时序网页代理的探索与演进
⏶
77
Quartet: 对于大型语言模型,原生的 FP4 训练可以是最佳的
⏶
74
开放视觉推理器:迁移语言认知行为以实现视觉推理
⏶
74
DeepSeekMath-V2:迈向自验证的数学推理
⏶
74
原生并行推理器:通过自蒸馏强化学习实现并行推理
⏶
73
SINQ:用于无校准低精度 LLM 权重的 Sinkhorn-归一化量化
⏶
73
Nex-N1: 通过统一生态系统训练的代理模型,用于大规模环境构建
⏶
72
Chain of Mindset:利用自适应认知模式进行推理
⏶
71
FineWeb2: 一个管道,万物皆可扩展 —— 适配每种语言的预训练数据处理
⏶
70
Skywork-R1V3 技术报告
⏶
70
Agent Lightning:使用强化学习训练任意AI智能体
⏶
70
AraLingBench 一个用于评估大型语言模型阿拉伯语语言能力的 人工标注基准
⏶
70
思维链中没有全局规划:揭示 LLM 的潜在规划视野
⏶
69
通过环境扩展迈向通用智能代理
⏶
69
Ming-UniVision:使用统一的连续分词器联合进行图像理解和生成
⏶
69
INT 与 FP:细粒度低位量化格式的综合研究
⏶
69
Spider-Sense:基于分层自适应筛选的高效智能体防御内生风险感知
⏶
66
赢得剪枝赌局:统一的方法,用于高效监督微调的联合样本和令牌剪枝
⏶
65
Falcon-H1:重新定义效率与性能的混合头语言模型家族
⏶
65
数据代理综述:新兴范式还是过分炒作?
⏶
65
深度研究:一项系统综述
⏶
64
推理模型很顽固: 诊断推理模型中的指令覆盖
⏶
64
预训练数据上的强化学习
⏶
64
Glyph: 通过视觉文本压缩扩展上下文窗口
⏶
64
ABC-Bench:真实世界开发中的代理式后端代码评测基准
⏶
63
扩展LLM智能体的测试时计算能力
⏶
63
MachineLearningLM:在数百万个合成表格预测任务上继续预训练语言模型,实现上下文学习的规模化
⏶
62
BizFinBench:一个用于评估大型语言模型的业务驱动型真实世界金融基准
⏶
62
MCP-Bench:通过MCP服务器对使用工具的LLM Agent进行复杂现实世界任务的基准测试
⏶
61
探索大型语言模型在一步文本生成中的潜在能力
⏶
61
PaperDebugger: 一种基于插件的多代理系统,用于编辑器内的学术写作、审阅和编辑
⏶
60
多人纳什偏好优化
⏶
60
自下而上的策略优化:您的语言模型策略秘密地包含内部策略
⏶
60
软件工程中基于大语言模型的问题解决之进展与前沿:全面综述
⏶
60
Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs 以思考促检索:推理如何解锁大模型中的参数化知识
⏶
58
从分数到技能:评估金融大语言模型的认知诊断框架
⏶
57
逆IF评估:大型语言模型能否忘记顽固的训练惯例以遵循真实指令?
⏶
57
OdysseyArena:针对长程、主动和归纳交互的大型语言模型基准测试
⏶
57
RubricBench:使模型生成的评分标准与人类标准对齐
⏶
56
视觉规划:只用图像思考
⏶
56
Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器
⏶
56
LongWriter-Zero:通过强化学习掌握超长文本生成
⏶
55
注意力照亮大模型推理:预规划与锚定节奏赋能细粒度策略优化
⏶
55
MADD:多智能体药物发现管弦乐
⏶
55
超越现实:旋转位置嵌入在长上下文LLM中的虚数扩展
⏶
54
Skywork-Reward-V2:通过人机协同扩展偏好数据管理
⏶
53
论大型语言模型强化学习微调中的熵动力学
⏶
52
SWE-Factory:用于问题解决训练数据和评估基准的自动化工厂
⏶
52
跨界推理:通过测试时权衡提高规范对齐