AI论文精选
大型语言模型
⏶
171
Qwen3 技术报告
⏶
144
将AI效率从模型中心转向数据中心压缩
⏶
130
超越二八法则:高熵少数词元驱动LLM推理中的有效强化学习
⏶
77
利用检索和代码工具将LLM智能体蒸馏到小模型
⏶
73
Quartet: 对于大型语言模型,原生的 FP4 训练可以是最佳的
⏶
64
推理模型很顽固: 诊断推理模型中的指令覆盖
⏶
61
BizFinBench:一个用于评估大型语言模型的业务驱动型真实世界金融基准
⏶
60
探索大型语言模型在一步文本生成中的潜在能力
⏶
55
Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器
⏶
53
视觉规划:只用图像思考
⏶
48
大型语言模型用于数据合成
⏶
44
AmbiK:厨房环境中的歧义任务数据集
⏶
42
QwenLong-CPRS: 迈向具有动态上下文优化的无限长LLM
⏶
40
Enigmata:使用合成可验证谜题扩展大型语言模型的逻辑推理能力
⏶
39
VideoReasonBench:MLLM能否执行以视觉为中心的复杂视频推理?
⏶
36
解读轨迹辅助的LLM推理:一个优化视角
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
36
驯服LLM:通过梯度分组缩放学习率
⏶
34
奖励推理模型
⏶
31
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
⏶
30
B-score:利用响应历史检测大语言模型中的偏见
⏶
30
格式和长度的替代信号:通过强化学习解决无标准答案的数学问题
⏶
28
LoftQ:用于大型语言模型的LoRA微调感知量化
⏶
28
ARIA:通过意图驱动奖励聚合训练语言智能体
⏶
27
rStar-Coder:通过大规模验证数据集扩展竞争性代码推理能力
⏶
26
芦荟家族秘方:用于开放和专业化医疗健康LLM
⏶
26
无需验证器强化通用推理
⏶
26
通过快捷神经元分析建立可靠的LLM评估
⏶
26
The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集
⏶
24
RetroInfer:可扩展长上下文LLM推理的一种向量存储方法
⏶
24
MOOSE-Chem2:通过分层搜索探索LLM在细粒度科学假设发现中的极限
⏶
23
Qwen3量化的一项实证研究
⏶
22
General-Reasoner:提升跨领域 LLM 推理能力
⏶
21
断裂思维链推理
⏶
21
通用推理器:一个用于冻结大语言模型的单一、可组合的即插即用推理器
⏶
21
多领域偏好可解释性
⏶
21
AReaL:一个用于语言推理的大规模异步强化学习系统
⏶
21
VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码
⏶
20
代码图模型 (CGM):一种集成图的大语言模型,用于代码仓库级软件工程任务
⏶
20
SWE-bench上线了!
⏶
19
大型语言模型持续预训练中的学习动态
⏶
19
推理模型更好地表达它们的置信度
⏶
19
使用大型混合推理模型的按需思考
⏶
18
LLMs 的群体智能基准测试
⏶
18
WebAgent-R1:通过端到端多轮强化学习训练网页代理
⏶
18
跨语言质量评估:基于语言模型的多语言预训练数据过滤方法
⏶
18
视觉语言模型存在偏见
⏶
17
DataDecide: 如何通过小型实验预测最佳预训练数据
⏶
17
Unilogit:利用均匀目标自蒸馏实现针对 LLMs 的鲁棒机器遗忘
⏶
16
生成式人工智能第二阶段:测试时缩放驱动认知工程
⏶
15
氛围式编码 vs. 智能体化编码:智能体人工智能的基本原理与实际影响
⏶
14
在开源 LLM 上微调时要小心:你的微调数据可能被秘密窃取!
⏶
14
Time-R1: 迈向大语言模型中的全面时间推理
⏶
13
TinyV: 减少验证中的假阴性以改进LLM推理的强化学习
⏶
13
FinTagging:用于提取和结构化金融信息的LLM(大型语言模型)就绪基准
⏶
13
CLaSp:用于自推测解码的上下文层跳过
⏶
13
SVGenius: 对大型语言模型在SVG理解、编辑和生成方面进行基准测试
⏶
12
独立于 LLM 的自适应 RAG:让问题自己说话
⏶
12
通过强化学习实现的大型语言模型交错推理
⏶
12
LIMOPro: 用于高效有效测试时扩展的推理细化
⏶
12
MINT-CoT:在数学思维链推理中实现交错视觉令牌
⏶
11
ICon: 上下文贡献用于自动数据选择
⏶
11
Speechless:适用于低资源语言的无需语音的语音指令训练
⏶
11
像经济学家一样推理:对经济问题进行后训练可诱导大型语言模型 (LLMs) 产生战略性泛化
⏶
11
TimeHC-RL:用于增强大型语言模型社交智能的时序感知分层认知强化学习
⏶
10
强化内外部知识协同推理,用于高效自适应搜索代理
⏶
10
理性赋能视觉:通过模型合并理解感知和推理
⏶
10
强化学习微调大语言模型中的小子网络
⏶
9
大语言模型的地理空间机理可解释性
⏶
9
探索大型语言模型与扩散 Transformer 模型在文本到图像合成中的深度融合
⏶
9
当AI合作科学家失败时:SPOT——一个用于科学研究自动化验证的基准
⏶
9
WINA:用于加速大语言模型推理的权重感知神经元激活
⏶
9
利用程序分析反馈训练语言模型生成高质量代码
⏶
8
使用大型语言模型进行知识增强的复杂问题解决:综述
⏶
8
AI智能体与智能体式人工智能:概念体系、应用及挑战
⏶
8
ToMAP:用心理理论训练对手感知型LLM说服者
⏶
8
压力测试机器生成文本检测:改变语言模型写作风格以欺骗检测器
⏶
8
超越表面:衡量大型语言模型判断中的自我偏好
⏶
8
BenchHub:一个用于全面且可定制LLM评估的统一基准套件
⏶
7
MPS-Prover:利用多视角搜索与数据策展提升步进式定理证明能力
⏶
7
利用形式化验证工具训练步骤级推理验证器
⏶
7
RePrompt: 用于文本到图像生成的推理增强重复提示,通过强化学习
⏶
7
一次性熵最小化
⏶
7
Afterburner: 强化学习促进自我改进的代码效率优化
⏶
7
大型语言模型的角色扮演评估
⏶
6
OmniGIRL:用于 GitHub 问题解决的多语言和多模态基准
⏶
6
MatTools:评估用于材料科学工具的大语言模型
⏶
6
MIGRATION-BENCH:从 Java 8 的仓库级代码迁移基准测试
⏶
6
Phare:大型语言模型的安全探针
⏶
6
只花1美元修复7400个Bug:廉价的崩溃现场程序修复
⏶
6
熵最小化在LLM推理中的不可思议的有效性
⏶
6
MUG-Eval:一种适用于任何语言的多语言生成能力代理评估框架
⏶
6
引导大语言模型实现机器翻译个性化
⏶
6
Transformer Copilot:在LLM微调中从错误日志中学习
⏶
6
通过 Mirror Prox 加速来自人类反馈的纳什学习
⏶
6
不要“过度思考”段落重排序:推理真的必要吗?
⏶
6
先学走再学跑!通过强化学习实现简洁的大型语言模型推理
⏶
6
Alita:实现可扩展代理推理的通用代理,具有最小预定义和最大自我进化
⏶
6
Critique-GRPO:利用自然语言和数值反馈推进大型语言模型推理
⏶
5
关于大型语言模型水印的可靠性
⏶
5
压缩后的大型语言模型能否真正具备自主行动能力?对大型语言模型压缩中自主行动能力的一次实证评估
⏶
5
在思考过程中搜索和细化:大型语言模型的自主检索增强推理
⏶
5
通过多智能体协作,扩展超出大型语言模型上下文窗口的外部知识输入
⏶
5
实现灵活的多大语言模型集成用于可扩展的知识聚合
⏶
5
利用大型语言模型检测科学新颖性