AI论文精选
大型语言模型
⏶
171
Qwen3 技术报告
⏶
154
超越二八法则:高熵少数词元驱动LLM推理中的有效强化学习
⏶
145
将AI效率从模型中心转向数据中心压缩
⏶
129
明天它还会是真的吗?多语言常青问题分类以提高可信问答
⏶
123
置信度即所需一切:语言模型的少样本强化学习微调
⏶
118
拖放式LLM:零样本提示到权重
⏶
77
利用检索和代码工具将LLM智能体蒸馏到小模型
⏶
77
推理还是记忆化?数据污染导致的强化学习结果不可靠
⏶
73
Quartet: 对于大型语言模型,原生的 FP4 训练可以是最佳的
⏶
71
迈向具有深度推理能力的智能体RAG:LLM中RAG-推理系统综述
⏶
68
开放视觉推理器:迁移语言认知行为以实现视觉推理
⏶
65
Skywork-R1V3 技术报告
⏶
64
推理模型很顽固: 诊断推理模型中的指令覆盖
⏶
61
BizFinBench:一个用于评估大型语言模型的业务驱动型真实世界金融基准
⏶
60
探索大型语言模型在一步文本生成中的潜在能力
⏶
60
扩展LLM智能体的测试时计算能力
⏶
60
FineWeb2: 一个管道,万物皆可扩展 —— 适配每种语言的预训练数据处理
⏶
56
LongWriter-Zero:通过强化学习掌握超长文本生成
⏶
55
Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器
⏶
53
视觉规划:只用图像思考
⏶
51
SWE-Factory:用于问题解决训练数据和评估基准的自动化工厂
⏶
50
Skywork-Reward-V2:通过人机协同扩展偏好数据管理
⏶
49
大型语言模型用于数据合成
⏶
46
Mind2Web 2:使用代理即评审评估代理式搜索
⏶
45
AmbiK:厨房环境中的歧义任务数据集
⏶
44
代码图模型 (CGM):一种集成图的大语言模型,用于代码仓库级软件工程任务
⏶
42
QwenLong-CPRS: 迈向具有动态上下文优化的无限长LLM
⏶
41
Enigmata:使用合成可验证谜题扩展大型语言模型的逻辑推理能力
⏶
39
VideoReasonBench:MLLM能否执行以视觉为中心的复杂视频推理?
⏶
39
The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集
⏶
37
Xolver:通过整体经验学习进行多智能体推理,就像奥林匹克竞赛团队一样
⏶
36
解读轨迹辅助的LLM推理:一个优化视角
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
36
驯服LLM:通过梯度分组缩放学习率
⏶
36
GenRecal:从大到小视觉语言模型校准后生成
⏶
36
SWE-Perf:语言模型能否在真实世界的代码仓库中优化代码性能?
⏶
34
奖励推理模型
⏶
34
RiemannLoRA: 用于无歧义 LoRA 优化的统一黎曼框架
⏶
32
离散音频令牌:不仅仅是一项调查!
⏶
32
Easy Dataset:一个用于从非结构化文档中合成LLM微调数据的统一且可扩展的框架
⏶
31
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
⏶
31
RLVER: 具有可验证情感奖励的强化学习,用于共情智能体
⏶
30
B-score:利用响应历史检测大语言模型中的偏见
⏶
30
格式和长度的替代信号:通过强化学习解决无标准答案的数学问题
⏶
30
ARIA:通过意图驱动奖励聚合训练语言智能体
⏶
29
一个Token欺骗LLM评判者
⏶
28
LoftQ:用于大型语言模型的LoRA微调感知量化
⏶
28
重新思考LLM代码生成中的验证:从生成到测试
⏶
27
rStar-Coder:通过大规模验证数据集扩展竞争性代码推理能力
⏶
27
通过快捷神经元分析建立可靠的LLM评估
⏶
27
GRPO-CARE:多模态推理的一致性感知强化学习
⏶
26
芦荟家族秘方:用于开放和专业化医疗健康LLM
⏶
26
无需验证器强化通用推理
⏶
24
RetroInfer:可扩展长上下文LLM推理的一种向量存储方法
⏶
24
MOOSE-Chem2:通过分层搜索探索LLM在细粒度科学假设发现中的极限
⏶
24
VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码
⏶
23
Qwen3量化的一项实证研究
⏶
23
AReaL:一个用于语言推理的大规模异步强化学习系统
⏶
23
预训练大语言模型在语境中学习隐马尔可夫模型
⏶
23
首次回报,熵诱导探索
⏶
22
General-Reasoner:提升跨领域 LLM 推理能力
⏶
22
LiveCodeBench Pro: 奥林匹克奖牌得主如何在竞技编程中评判大型语言模型?
⏶
21
断裂思维链推理
⏶
21
通用推理器:一个用于冻结大语言模型的单一、可组合的即插即用推理器
⏶
21
多领域偏好可解释性
⏶
20
SWE-bench上线了!
⏶
20
视觉语言模型存在偏见
⏶
20
LayerCake:大型语言模型层内的词元感知对比解码
⏶
19
大型语言模型持续预训练中的学习动态
⏶
19
推理模型更好地表达它们的置信度
⏶
19
使用大型混合推理模型的按需思考
⏶
19
为智能体构建网络,而非为网络构建智能体
⏶
19
编码三角:大型语言模型如何理解代码?
⏶
18
LLMs 的群体智能基准测试
⏶
18
WebAgent-R1:通过端到端多轮强化学习训练网页代理
⏶
18
跨语言质量评估:基于语言模型的多语言预训练数据过滤方法
⏶
18
大型语言模型能否捕捉人类标注者的分歧?
⏶
18
RefineX:从专家指导程序中大规模学习精炼预训练数据
⏶
17
DataDecide: 如何通过小型实验预测最佳预训练数据
⏶
17
Unilogit:利用均匀目标自蒸馏实现针对 LLMs 的鲁棒机器遗忘
⏶
16
生成式人工智能第二阶段:测试时缩放驱动认知工程
⏶
16
给我FP32,否则宁死?可复现推理的挑战与解决方案
⏶
16
多语言大型语言模型中的语言手术
⏶
16
Pangu Pro MoE:分组专家混合用于高效稀疏性
⏶
16
从 KMMLU-Redux 到 KMMLU-Pro:用于大语言模型评估的专业韩语基准套件
⏶
15
氛围式编码 vs. 智能体化编码:智能体人工智能的基本原理与实际影响
⏶
15
有争议的智能:通过辩论言语评估对LLM评判器进行基准测试
⏶
15
从真实到合成:利用带有属性的对齐合成数百万条多样化且复杂的用户指令
⏶
15
HumanOmniV2:从理解到基于上下文的全模态推理
⏶
15
迈向通过解耦推理和证明解决更具挑战性的IMO问题
⏶
14
在开源 LLM 上微调时要小心:你的微调数据可能被秘密窃取!
⏶
14
Time-R1: 迈向大语言模型中的全面时间推理
⏶
14
SVGenius: 对大型语言模型在SVG理解、编辑和生成方面进行基准测试
⏶
14
SwS:强化学习中用于LLM推理的自我感知弱点驱动问题合成
⏶
13
TinyV: 减少验证中的假阴性以改进LLM推理的强化学习
⏶
13
FinTagging:用于提取和结构化金融信息的LLM(大型语言模型)就绪基准
⏶
13
CLaSp:用于自推测解码的上下文层跳过
⏶
13
MINT-CoT:在数学思维链推理中实现交错视觉令牌
⏶
13
逆向强化学习遇上大语言模型后训练:基础、进展与机遇
⏶
12
独立于 LLM 的自适应 RAG:让问题自己说话
⏶
12
通过强化学习实现的大型语言模型交错推理
⏶
12
LIMOPro: 用于高效有效测试时扩展的推理细化
⏶
12
TimeHC-RL:用于增强大型语言模型社交智能的时序感知分层认知强化学习
⏶
12
ChineseHarm-Bench:一个中文有害内容检测基准
⏶
12
SwarmAgentic:迈向通过群体智能实现全自动化智能体系统生成