AI论文精选
大语言模型
⏶
215
Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译
⏶
154
超越二八法则:高熵少数词元驱动LLM推理中的有效强化学习
⏶
126
MemOS: 专为AI系统设计的内存操作系统
⏶
120
用于推理语言模型的强化学习熵机制
⏶
92
ReasonMed: 一个37万多智能体生成数据集,助力医学推理
⏶
91
Table-R1:面向表格推理的推理时缩放
⏶
90
MultiFinBen: 一个多语言、多模态、难度感知的金融大模型评估基准
⏶
78
推理还是记忆化?数据污染导致的强化学习结果不可靠
⏶
72
LLM 中的地缘政治偏见:当代语言模型眼中的“好”国家和“坏”国家
⏶
70
Saffron-1: 迈向大语言模型安全保障的推理扩展范式
⏶
68
开放视觉推理器:迁移语言认知行为以实现视觉推理
⏶
62
ZeroSearch:无需搜索即可激发 LLMs 的搜索能力
⏶
60
马吉斯特拉
⏶
55
Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器
⏶
53
反馈摩擦:LLMs 难以充分吸收外部反馈
⏶
53
CMI-Bench:一个用于评估音乐指令遵循的综合基准
⏶
52
Skywork Open Reasoner 1 技术报告
⏶
51
SWE-Factory:用于问题解决训练数据和评估基准的自动化工厂
⏶
45
AmbiK:厨房环境中的歧义任务数据集
⏶
44
代码图模型 (CGM):一种集成图的大语言模型,用于代码仓库级软件工程任务
⏶
43
HardTests:为LLM编码合成高质量测试用例
⏶
39
The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集
⏶
37
具有可验证奖励的强化学习隐式激励基础LLM中的正确推理
⏶
37
Xolver:通过整体经验学习进行多智能体推理,就像奥林匹克竞赛团队一样
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
36
一切尚未失去:无需检查点的大语言模型恢复
⏶
31
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
⏶
31
VRBench:长篇叙事视频中的多步推理基准
⏶
29
PyVision:具有动态工具的代理视觉
⏶
28
LoftQ:用于大型语言模型的LoRA微调感知量化
⏶
28
Lumos-1:从统一模型视角看自回归视频生成
⏶
27
AgentRewardBench:评估Web代理轨迹的自动评估
⏶
27
rStar-Coder:通过大规模验证数据集扩展竞争性代码推理能力
⏶
27
通过下一事件预测促进视频推理
⏶
27
通过快捷神经元分析建立可靠的LLM评估
⏶
26
AttentionInfluence:采用注意力头的影响用于从弱到强的预训练数据选择
⏶
26
芦荟家族秘方:用于开放和专业化医疗健康LLM
⏶
26
无需验证器强化通用推理
⏶
24
VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码
⏶
23
Qwen3量化的一项实证研究
⏶
23
语言模型的终身安全对齐
⏶
23
预训练大语言模型在语境中学习隐马尔可夫模型
⏶
23
首次回报,熵诱导探索
⏶
22
EfficientLLM: 大语言模型中的效率
⏶
22
LiveCodeBench Pro: 奥林匹克奖牌得主如何在竞技编程中评判大型语言模型?
⏶
20
lmgame-Bench:LLMs 玩游戏水平如何?
⏶
20
SWE-bench上线了!
⏶
20
使用大语言模型求解不等式证明
⏶
20
尼罗河聊天:针对阿拉伯语和拉丁语文字的埃及语言模型
⏶
19
推理模型更好地表达它们的置信度
⏶
18
迈向 LLM 中的安全推理:AI 智能体式审议用于策略嵌入式 CoT 数据创建
⏶
18
大型语言模型可以识别科学研究中的关键局限性吗?人工智能研究论文的系统评估
⏶
17
通过内部表征的视角分析大型语言模型跨语言的知识边界认知
⏶
17
EmergentTTS-Eval:使用模型作为评判者评估TTS模型在复杂的韵律、表现力和语言挑战上的表现
⏶
17
搜索竞技场:分析搜索增强型大语言模型
⏶
16
从阅读时的眼动中解码开放式信息搜索目标
⏶
16
SparseMM:MLLM 中视觉概念响应产生的头部稀疏性
⏶
16
给我FP32,否则宁死?可复现推理的挑战与解决方案
⏶
16
LLM 能为算法问题生成高质量测试用例吗?TestCase-Eval:故障覆盖率和暴露的系统性评估
⏶
16
从 KMMLU-Redux 到 KMMLU-Pro:用于大语言模型评估的专业韩语基准套件
⏶
16
AbGen:评估大型语言模型在科学研究中消融研究设计和评估方面的能力
⏶
15
教学中的谎言: 基于合成负样本的课程DPO用于幻觉检测
⏶
14
SwS:强化学习中用于LLM推理的自我感知弱点驱动问题合成
⏶
14
布尔巴基:用于定理证明的自生成和目标条件 MDP
⏶
13
CS-Sum:语码转换对话摘要的基准以及大型语言模型的局限性
⏶
13
探索大型语言模型的联邦剪枝
⏶
13
AgentsNet:多智能体LLM中的协调与协作推理
⏶
12
独立于 LLM 的自适应 RAG:让问题自己说话
⏶
12
ChineseHarm-Bench:一个中文有害内容检测基准
⏶
12
自动化LLM速通基准:重现NanoGPT改进
⏶
11
ICon: 上下文贡献用于自动数据选择
⏶
11
Eka-Eval:一个在印度语言中评估大型语言模型的综合框架
⏶
10
CCI4.0: 用于增强大语言模型推理能力的双语预训练数据集
⏶
10
ConfQA: 只有在你自信时才回答
⏶
10
ZeCO: 零通信开销的线性注意力序列并行
⏶
9
当AI合作科学家失败时:SPOT——一个用于科学研究自动化验证的基准
⏶
9
自我纠正基准:揭示并解决大型语言模型中的自我纠正盲点
⏶
8
使用大型语言模型进行知识增强的复杂问题解决:综述
⏶
8
思维链标记是计算机程序变量
⏶
8
使用大型语言模型通过强化学习提升汇编代码性能
⏶
8
BenchHub:一个用于全面且可定制LLM评估的统一基准套件
⏶
8
MIRIAD:用数百万医疗查询-响应对增强大型语言模型
⏶
8
ArtifactsBench:弥合LLM代码生成评估中的视觉交互鸿沟
⏶
7
ViSMaP:通过元提示实现的无监督长时视频摘要
⏶
7
Scenethesis:一个用于3D场景生成的语言与视觉智能体框架
⏶
7
DynamicRAG: 利用大语言模型输出作为反馈,实现检索增强生成中的动态重排
⏶
7
RePrompt: 用于文本到图像生成的推理增强重复提示,通过强化学习
⏶
7
针对大规模数据集和(中等规模)大型语言模型的强成员推理攻击
⏶
7
AssetOpsBench:工业资产运营与维护领域任务自动化AI智能体的基准测试
⏶
7
变革的智能体:用于战略规划的自演进LLM智能体
⏶
7
AbstentionBench:推理大型语言模型在无解问题上失败
⏶
7
GPTailor:通过层切割和拼接进行大型语言模型剪枝
⏶
7
RedOne:揭示社交网络服务中的领域特定LLM后训练
⏶
6
MatTools:评估用于材料科学工具的大语言模型
⏶
6
MUG-Eval:一种适用于任何语言的多语言生成能力代理评估框架
⏶
6
引导大语言模型实现机器翻译个性化
⏶
6
Alita:实现可扩展代理推理的通用代理,具有最小预定义和最大自我进化
⏶
6
分享: 一种基于SLM的文本到SQL分层动作校正助手
⏶
6
Critique-GRPO:利用自然语言和数值反馈推进大型语言模型推理
⏶
6
VerIF:指令遵循中强化学习的验证工程
⏶
6
Router-R1: 通过强化学习教会LLM多轮路由和聚合
⏶
6
any4:用于大型语言模型的学习型4位数值表示
⏶
5
关于大型语言模型水印的可靠性
⏶
5
TRAIL:智能体问题跟踪与定位
⏶
5
压缩后的大型语言模型能否真正具备自主行动能力?对大型语言模型压缩中自主行动能力的一次实证评估