AI论文精选
大型语言模型
⏶
274
组序列策略优化
⏶
222
大型语言模型的语境工程综述
⏶
171
Qwen3 技术报告
⏶
154
超越二八法则:高熵少数词元驱动LLM推理中的有效强化学习
⏶
145
将AI效率从模型中心转向数据中心压缩
⏶
137
自主强化策略优化
⏶
133
A.S.E:评估人工智能生成代码安全性的存储库级别基准
⏶
129
明天它还会是真的吗?多语言常青问题分类以提高可信问答
⏶
123
置信度即所需一切:语言模型的少样本强化学习微调
⏶
122
Chain-of-Agents:通过多智能体蒸馏和智能体强化学习实现端到端智能体基础模型
⏶
118
拖放式LLM:零样本提示到权重
⏶
104
WideSearch:对代理广域信息搜索的基准测试
⏶
101
胡言乱语学:用深度解读胡言乱语挑战大型语言模型
⏶
91
SSRL: 自搜索强化学习
⏶
80
推理还是记忆化?数据污染导致的强化学习结果不可靠
⏶
77
利用检索和代码工具将LLM智能体蒸馏到小模型
⏶
76
迈向具有深度推理能力的智能体RAG:LLM中RAG-推理系统综述
⏶
73
Quartet: 对于大型语言模型,原生的 FP4 训练可以是最佳的
⏶
68
开放视觉推理器:迁移语言认知行为以实现视觉推理
⏶
65
Skywork-R1V3 技术报告
⏶
64
推理模型很顽固: 诊断推理模型中的指令覆盖
⏶
62
Falcon-H1:重新定义效率与性能的混合头语言模型家族
⏶
61
BizFinBench:一个用于评估大型语言模型的业务驱动型真实世界金融基准
⏶
61
Agent Lightning:使用强化学习训练任意AI智能体
⏶
60
探索大型语言模型在一步文本生成中的潜在能力
⏶
60
扩展LLM智能体的测试时计算能力
⏶
60
FineWeb2: 一个管道,万物皆可扩展 —— 适配每种语言的预训练数据处理
⏶
58
从分数到技能:评估金融大语言模型的认知诊断框架
⏶
56
LongWriter-Zero:通过强化学习掌握超长文本生成
⏶
56
MCP-Bench:通过MCP服务器对使用工具的LLM Agent进行复杂现实世界任务的基准测试
⏶
55
Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器
⏶
53
视觉规划:只用图像思考
⏶
51
SWE-Factory:用于问题解决训练数据和评估基准的自动化工厂
⏶
50
Skywork-Reward-V2:通过人机协同扩展偏好数据管理
⏶
49
大型语言模型用于数据合成
⏶
47
DesignLab:通过迭代检测和纠正设计幻灯片
⏶
46
Mind2Web 2:使用代理即评审评估代理式搜索
⏶
45
AmbiK:厨房环境中的歧义任务数据集
⏶
45
MUR: 动量不确定性引导推理用于大型语言模型
⏶
44
代码图模型 (CGM):一种集成图的大语言模型,用于代码仓库级软件工程任务
⏶
42
QwenLong-CPRS: 迈向具有动态上下文优化的无限长LLM
⏶
42
Mol-R1:迈向分子发现中明确的长链思维推理
⏶
42
MCP-宇宙:使用真实世界模型上下文协议服务器对大型语言模型进行基准测试
⏶
41
Enigmata:使用合成可验证谜题扩展大型语言模型的逻辑推理能力
⏶
41
逆IF评估:大型语言模型能否忘记顽固的训练惯例以遵循真实指令?
⏶
40
SWE-Perf:语言模型能否在真实世界的代码仓库中优化代码性能?
⏶
39
VideoReasonBench:MLLM能否执行以视觉为中心的复杂视频推理?
⏶
39
The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集
⏶
39
LLM 量化的几何学:GPTQ 作为 Babai 最近平面算法
⏶
39
当标点符号至关重要时:LLM 提示鲁棒性方法的大规模比较
⏶
38
复杂逻辑指令生成
⏶
37
Xolver:通过整体经验学习进行多智能体推理,就像奥林匹克竞赛团队一样
⏶
36
解读轨迹辅助的LLM推理:一个优化视角
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
36
驯服LLM:通过梯度分组缩放学习率
⏶
36
GenRecal:从大到小视觉语言模型校准后生成
⏶
35
RiemannLoRA: 用于无歧义 LoRA 优化的统一黎曼框架
⏶
35
RecGPT 技术报告
⏶
34
奖励推理模型
⏶
32
离散音频令牌:不仅仅是一项调查!
⏶
32
Easy Dataset:一个用于从非结构化文档中合成LLM微调数据的统一且可扩展的框架
⏶
32
AWorld:具有稳定操控能力的动态多智能体系统,用于稳健解决 GAIA 问题
⏶
32
从科学AI到自主科学:自主科学发现的调查
⏶
32
理解工具集成推理
⏶
32
Baichuan-M2:使用大型验证器系统扩展医疗能力
⏶
31
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
⏶
31
RLVER: 具有可验证情感奖励的强化学习,用于共情智能体
⏶
31
Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct 技术报告
⏶
31
Memp: 对代理程序性记忆的探索
⏶
30
B-score:利用响应历史检测大语言模型中的偏见
⏶
30
格式和长度的替代信号:通过强化学习解决无标准答案的数学问题
⏶
30
ARIA:通过意图驱动奖励聚合训练语言智能体
⏶
30
一个Token欺骗LLM评判者
⏶
29
UserBench:一个以用户为中心的代理的交互式健身环境
⏶
29
AgentScope 1.0:一个以开发者为中心的框架,用于构建 Agentic 应用
⏶
28
LoftQ:用于大型语言模型的LoRA微调感知量化
⏶
28
重新思考LLM代码生成中的验证:从生成到测试
⏶
27
rStar-Coder:通过大规模验证数据集扩展竞争性代码推理能力
⏶
27
通过快捷神经元分析建立可靠的LLM评估
⏶
27
GRPO-CARE:多模态推理的一致性感知强化学习
⏶
26
芦荟家族秘方:用于开放和专业化医疗健康LLM
⏶
26
无需验证器强化通用推理
⏶
25
当今的大型语言模型准备好解释幸福概念了吗?
⏶
25
HeroBench:虚拟世界中长程规划与结构化推理的基准测试
⏶
24
RetroInfer:可扩展长上下文LLM推理的一种向量存储方法
⏶
24
MOOSE-Chem2:通过分层搜索探索LLM在细粒度科学假设发现中的极限
⏶
24
VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码
⏶
24
逆向强化学习遇上大语言模型后训练:基础、进展与机遇
⏶
24
Grove MoE:通过伴随专家实现高效卓越的 MoE LLM
⏶
23
Qwen3量化的一项实证研究
⏶
23
AReaL:一个用于语言推理的大规模异步强化学习系统
⏶
23
预训练大语言模型在语境中学习隐马尔可夫模型
⏶
23
首次回报,熵诱导探索
⏶
23
C3:一个用于探索复杂对话中挑战的双语口语对话模型基准
⏶
22
General-Reasoner:提升跨领域 LLM 推理能力
⏶
22
LiveCodeBench Pro: 奥林匹克奖牌得主如何在竞技编程中评判大型语言模型?
⏶
22
CoTox:基于思维链的分子毒性推理与预测
⏶
22
打破探索瓶颈:基于评分表的强化学习促进通用大语言模型推理
⏶
21
断裂思维链推理
⏶
21
通用推理器:一个用于冻结大语言模型的单一、可组合的即插即用推理器
⏶
21
多领域偏好可解释性
⏶
21
GEPA:反思式提示演进可超越强化学习
⏶
21
TCIA:面向指令微调的任务中心指令增强方法
⏶
21
在游戏中思考:通过大型语言模型强化学习在游戏中学习推理
⏶
20
SWE-bench上线了!