AI论文精选
大语言模型
⏶
214
Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译
⏶
131
超越二八法则:高熵少数词元驱动LLM推理中的有效强化学习
⏶
116
用于推理语言模型的强化学习熵机制
⏶
88
Table-R1:面向表格推理的推理时缩放
⏶
62
ZeroSearch:无需搜索即可激发 LLMs 的搜索能力
⏶
55
Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器
⏶
52
Skywork Open Reasoner 1 技术报告
⏶
44
AmbiK:厨房环境中的歧义任务数据集
⏶
42
HardTests:为LLM编码合成高质量测试用例
⏶
36
通过带有冷启动的强化学习推进多模态推理
⏶
31
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
⏶
28
LoftQ:用于大型语言模型的LoRA微调感知量化
⏶
27
AgentRewardBench:评估Web代理轨迹的自动评估
⏶
27
rStar-Coder:通过大规模验证数据集扩展竞争性代码推理能力
⏶
27
通过下一事件预测促进视频推理
⏶
27
The Common Pile v0.1:一个包含 8TB 公有领域和开放许可文本的数据集
⏶
26
AttentionInfluence:采用注意力头的影响用于从弱到强的预训练数据选择
⏶
26
芦荟家族秘方:用于开放和专业化医疗健康LLM
⏶
26
无需验证器强化通用推理
⏶
26
通过快捷神经元分析建立可靠的LLM评估
⏶
23
Qwen3量化的一项实证研究
⏶
23
语言模型的终身安全对齐
⏶
22
EfficientLLM: 大语言模型中的效率
⏶
21
VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码
⏶
20
lmgame-Bench:LLMs 玩游戏水平如何?
⏶
20
代码图模型 (CGM):一种集成图的大语言模型,用于代码仓库级软件工程任务
⏶
20
SWE-bench上线了!
⏶
19
推理模型更好地表达它们的置信度
⏶
17
通过内部表征的视角分析大型语言模型跨语言的知识边界认知
⏶
17
迈向 LLM 中的安全推理:AI 智能体式审议用于策略嵌入式 CoT 数据创建
⏶
17
EmergentTTS-Eval:使用模型作为评判者评估TTS模型在复杂的韵律、表现力和语言挑战上的表现
⏶
16
从阅读时的眼动中解码开放式信息搜索目标
⏶
15
教学中的谎言: 基于合成负样本的课程DPO用于幻觉检测
⏶
15
SparseMM:MLLM 中视觉概念响应产生的头部稀疏性
⏶
13
CS-Sum:语码转换对话摘要的基准以及大型语言模型的局限性
⏶
13
探索大型语言模型的联邦剪枝
⏶
12
独立于 LLM 的自适应 RAG:让问题自己说话
⏶
12
搜索竞技场:分析搜索增强型大语言模型
⏶
11
ICon: 上下文贡献用于自动数据选择
⏶
9
当AI合作科学家失败时:SPOT——一个用于科学研究自动化验证的基准
⏶
8
使用大型语言模型进行知识增强的复杂问题解决:综述
⏶
8
思维链标记是计算机程序变量
⏶
8
使用大型语言模型通过强化学习提升汇编代码性能
⏶
8
BenchHub:一个用于全面且可定制LLM评估的统一基准套件
⏶
7
ViSMaP:通过元提示实现的无监督长时视频摘要
⏶
7
Scenethesis:一个用于3D场景生成的语言与视觉智能体框架
⏶
7
DynamicRAG: 利用大语言模型输出作为反馈,实现检索增强生成中的动态重排
⏶
7
RePrompt: 用于文本到图像生成的推理增强重复提示,通过强化学习
⏶
7
针对大规模数据集和(中等规模)大型语言模型的强成员推理攻击
⏶
6
MatTools:评估用于材料科学工具的大语言模型
⏶
6
MUG-Eval:一种适用于任何语言的多语言生成能力代理评估框架
⏶
6
引导大语言模型实现机器翻译个性化
⏶
6
Alita:实现可扩展代理推理的通用代理,具有最小预定义和最大自我进化
⏶
6
Critique-GRPO:利用自然语言和数值反馈推进大型语言模型推理
⏶
5
关于大型语言模型水印的可靠性
⏶
5
TRAIL:智能体问题跟踪与定位
⏶
5
压缩后的大型语言模型能否真正具备自主行动能力?对大型语言模型压缩中自主行动能力的一次实证评估
⏶
4
一种抵御大型语言模型擦除攻击的简单防御
⏶
4
ComposeAnything:用于文本到图像生成的复合对象先验
⏶
4
MedAgentGym:大规模训练用于基于代码的医学推理的 LLM 代理
⏶
4
通过推理和强化学习实现 LLM 中的上下文完整性
⏶
3
HoPE: 视觉-语言模型中的长度泛化混合位置编码
⏶
3
评估跨不同领域的文本创造力:一个数据集和大型语言模型评估器
⏶
3
弗兰肯文本:将随机文本片段缝合为长篇叙事
⏶
3
编程概念和神经元如何在代码语言模型中共享
⏶
3
分享: 一种基于SLM的文本到SQL分层动作校正助手
⏶
3
TRiSM 面向智能体AI:基于大型语言模型的智能体多智能体系统中的信任、风险和安全管理综述
⏶
2
从权衡到协同:一个用于大型语言模型的通用共生水印框架
⏶
2
增强大型语言模型推理:用于复杂问答的动态笔记写作
⏶
2
大型音视语言模型综合评估展望:一项全面综述
⏶
2
机器的语用心智:追溯大型语言模型中语用能力的涌现
⏶
2
刻画偏差:对大语言模型在简体中文与繁体中文上的基准测试
⏶
2
OMNIGUARD: 一种跨模态 AI 安全审核的有效方法
⏶
2
揭开真相的面纱:降秩后涌现主权重,用于推理导向的监督微调
⏶
2
R1-代码解释器:通过监督学习和强化学习训练大型语言模型进行代码推理
⏶
2
规划与预算:大语言模型推理中有效且高效的推理时伸缩
⏶
2
R^2ec:迈向具备推理能力的大型推荐模型
⏶
2
FinChain:一个用于可验证金融推理思维链的符号基准
⏶
1
AI自由职业者能竞争吗?:规模化基准测试收入、可靠性和任务成功
⏶
1
迈向可靠的生物医学假说生成:评估大型语言模型的真实性与幻觉
⏶
0
测试即提示:一个面向LLM代码生成的测试驱动开发基准