AI论文精选
大语言模型
⏶
279
A.S.E:评估人工智能生成代码安全性的存储库级别基准
⏶
215
Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译
⏶
194
胡言乱语学:用深度解读胡言乱语挑战大型语言模型
⏶
154
超越二八法则:高熵少数词元驱动LLM推理中的有效强化学习
⏶
126
MemOS: 专为AI系统设计的内存操作系统
⏶
120
用于推理语言模型的强化学习熵机制
⏶
116
R-Zero:从零数据中自我演进的推理大型语言模型
⏶
92
ReasonMed: 一个37万多智能体生成数据集,助力医学推理
⏶
91
Table-R1:面向表格推理的推理时缩放
⏶
91
SSRL: 自搜索强化学习
⏶
90
MultiFinBen: 一个多语言、多模态、难度感知的金融大模型评估基准
⏶
80
推理还是记忆化?数据污染导致的强化学习结果不可靠
⏶
80
DuPO:通过双偏好优化实现可靠的大语言模型自我验证
⏶
72
LLM 中的地缘政治偏见:当代语言模型眼中的“好”国家和“坏”国家
⏶
70
Saffron-1: 迈向大语言模型安全保障的推理扩展范式
⏶
68
开放视觉推理器:迁移语言认知行为以实现视觉推理
⏶
62
ZeroSearch:无需搜索即可激发 LLMs 的搜索能力
⏶
60
马吉斯特拉
⏶
55
Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器
⏶
53
反馈摩擦:LLMs 难以充分吸收外部反馈
⏶
53
CMI-Bench:一个用于评估音乐指令遵循的综合基准
⏶
52
Skywork Open Reasoner 1 技术报告
⏶
51
SWE-Factory:用于问题解决训练数据和评估基准的自动化工厂
⏶
45
AmbiK:厨房环境中的歧义任务数据集
⏶
44
代码图模型 (CGM):一种集成图的大语言模型,用于代码仓库级软件工程任务
⏶
43
HardTests:为LLM编码合成高质量测试用例
⏶
42
MCP-宇宙:使用真实世界模型上下文协议服务器对大型语言模型进行基准测试
⏶
39
The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集
⏶
38
复杂逻辑指令生成
⏶
37
具有可验证奖励的强化学习隐式激励基础LLM中的正确推理
⏶
37
Xolver:通过整体经验学习进行多智能体推理,就像奥林匹克竞赛团队一样
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
36
一切尚未失去:无需检查点的大语言模型恢复
⏶
36
Baichuan-M2:使用大型验证器系统扩展医疗能力
⏶
35
RecGPT 技术报告
⏶
33
AgentScope 1.0:一个以开发者为中心的框架,用于构建 Agentic 应用
⏶
32
司南验证器 (CompassVerifier):一个用于大语言模型评估和结果奖励的统一鲁棒验证器
⏶
32
理解工具集成推理
⏶
32
Spacer:迈向工程化科学灵感
⏶
31
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
⏶
31
VRBench:长篇叙事视频中的多步推理基准
⏶
31
Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct 技术报告
⏶
29
PyVision:具有动态工具的代理视觉
⏶
29
Lumos-1:从统一模型视角看自回归视频生成
⏶
29
UserBench:一个以用户为中心的代理的交互式健身环境
⏶
28
LoftQ:用于大型语言模型的LoRA微调感知量化
⏶
27
AgentRewardBench:评估Web代理轨迹的自动评估
⏶
27
rStar-Coder:通过大规模验证数据集扩展竞争性代码推理能力
⏶
27
通过下一事件预测促进视频推理
⏶
27
通过快捷神经元分析建立可靠的LLM评估
⏶
26
AttentionInfluence:采用注意力头的影响用于从弱到强的预训练数据选择
⏶
26
芦荟家族秘方:用于开放和专业化医疗健康LLM
⏶
26
无需验证器强化通用推理
⏶
25
当今的大型语言模型准备好解释幸福概念了吗?
⏶
24
VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码
⏶
24
Grove MoE:通过伴随专家实现高效卓越的 MoE LLM
⏶
24
在游戏中思考:通过大型语言模型强化学习在游戏中学习推理
⏶
24
借助工具强化视觉感知
⏶
23
Qwen3量化的一项实证研究
⏶
23
语言模型的终身安全对齐
⏶
23
预训练大语言模型在语境中学习隐马尔可夫模型
⏶
23
首次回报,熵诱导探索
⏶
23
C3:一个用于探索复杂对话中挑战的双语口语对话模型基准
⏶
23
大型语言模型预训练优化器基准测试
⏶
22
EfficientLLM: 大语言模型中的效率
⏶
22
LiveCodeBench Pro: 奥林匹克奖牌得主如何在竞技编程中评判大型语言模型?
⏶
20
lmgame-Bench:LLMs 玩游戏水平如何?
⏶
20
SWE-bench上线了!
⏶
20
使用大语言模型求解不等式证明
⏶
20
尼罗河聊天:针对阿拉伯语和拉丁语文字的埃及语言模型
⏶
19
推理模型更好地表达它们的置信度
⏶
19
aiXiv:由 AI 科学家生成的科学发现下一代开放获取生态系统
⏶
19
FlashAdventure:用于 GUI 代理解决多样化冒险游戏中完整故事线上的基准测试
⏶
18
迈向 LLM 中的安全推理:AI 智能体式审议用于策略嵌入式 CoT 数据创建
⏶
18
大型语言模型可以识别科学研究中的关键局限性吗?人工智能研究论文的系统评估
⏶
18
CLEAR:基于LLM评判的错误分析变得简单
⏶
17
通过内部表征的视角分析大型语言模型跨语言的知识边界认知
⏶
17
EmergentTTS-Eval:使用模型作为评判者评估TTS模型在复杂的韵律、表现力和语言挑战上的表现
⏶
17
搜索竞技场:分析搜索增强型大语言模型
⏶
17
从 KMMLU-Redux 到 KMMLU-Pro:用于大语言模型评估的专业韩语基准套件
⏶
16
从阅读时的眼动中解码开放式信息搜索目标
⏶
16
SparseMM:MLLM 中视觉概念响应产生的头部稀疏性
⏶
16
给我FP32,否则宁死?可复现推理的挑战与解决方案
⏶
16
LLM 能为算法问题生成高质量测试用例吗?TestCase-Eval:故障覆盖率和暴露的系统性评估
⏶
16
AbGen:评估大型语言模型在科学研究中消融研究设计和评估方面的能力
⏶
15
教学中的谎言: 基于合成负样本的课程DPO用于幻觉检测
⏶
15
在复杂的动态环境中,输入重构如何提高工具使用准确性?一项关于τ-bench的研究
⏶
14
SwS:强化学习中用于LLM推理的自我感知弱点驱动问题合成
⏶
14
布尔巴基:用于定理证明的自生成和目标条件 MDP
⏶
13
CS-Sum:语码转换对话摘要的基准以及大型语言模型的局限性
⏶
13
探索大型语言模型的联邦剪枝
⏶
13
AgentsNet:多智能体LLM中的协调与协作推理
⏶
13
利用大型语言模型对人类苦难进行预测分析
⏶
13
属性作为文本基因:利用 LLM 作为遗传算法模拟器进行条件合成数据生成
⏶
12
独立于 LLM 的自适应 RAG:让问题自己说话
⏶
12
ChineseHarm-Bench:一个中文有害内容检测基准
⏶
12
自动化LLM速通基准:重现NanoGPT改进
⏶
11
ICon: 上下文贡献用于自动数据选择
⏶
11
Eka-Eval:一个在印度语言中评估大型语言模型的综合框架
⏶
11
SPAR:利用基于LLM的智能体增强学术搜索的学者论文检索
⏶
11
基于评分锚点的强化学习
⏶
10
CCI4.0: 用于增强大语言模型推理能力的双语预训练数据集
⏶
10
ConfQA: 只有在你自信时才回答
⏶
10
ZeCO: 零通信开销的线性注意力序列并行
⏶
10
民主化外交:评估大型语言模型在“全面外交”中表现的利器