AI论文精选
大型语言模型 (LLMs)
⏶
117
超越Pass@1:变分问题合成的自我对弈能够维持RLVR
⏶
102
TTRL:测试时强化学习
⏶
101
ScienceBoard:评测多模态自主智能体在真实科学工作流程中
⏶
90
使用一个训练样本对大型语言模型进行推理的强化学习
⏶
80
Voila:用于实时自主交互和语音角色扮演的语音-语言基础模型
⏶
70
R2R:利用大小模型令牌路由高效探索分支推理路径
⏶
68
利用元学习进行系统提示优化
⏶
66
攀登凿刻的智慧比山顶更深邃:关于学习推理中的嘈杂奖励
⏶
64
SynLogic:大规模合成可验证推理数据,迈向逻辑推理及其他领域
⏶
61
C3PO:用于测试时专家重混合的关键层、核心专家、协作路径优化
⏶
57
带有测试时扩散的深度研究员
⏶
46
具身智能体遇见个性化:探索记忆利用实现个性化辅助
⏶
46
PATS: 过程级自适应思维模式切换
⏶
46
CMPhysBench:用于评估凝聚态物理领域大语言模型的基准测试
⏶
45
VCR-Bench:视频链式思考推理的综合评估框架
⏶
42
感知感知的多模态推理策略优化
⏶
39
Phi-4-Mini-Reasoning:探索小型推理语言模型在数学领域的极限
⏶
36
对比偏好优化:在机器翻译中突破LLM性能的界限
⏶
36
BrowseComp-Plus:一个更公平、更透明的深度研究代理评估基准
⏶
35
PHYBench:大语言模型的物理感知与推理综合评估
⏶
35
基于预算相对策略优化的随时推理优化
⏶
33
OTC:基于强化学习的最优工具调用
⏶
31
VLM-R1:稳定且可泛化的R1风格大型视觉语言模型
⏶
30
资源受限情况下大型语言模型的全参数微调
⏶
28
集体思维:多个并发推理智能体在令牌级粒度上协作
⏶
27
TextArena
⏶
27
小型LLM在数据合成中的战略协调框架与大型LLM相匹配
⏶
27
BookWorld:从小说到交互式智能体社会,用于创意故事生成
⏶
26
黑暗中探索:基于测试时实例级策略梯度在潜在空间中的推理
⏶
25
AlayaDB:高效且有效的长上下文LLM推理的数据基础
⏶
24
ReplaceMe:通过层剪枝和线性变换进行网络简化
⏶
24
MetaMind:使用元认知多智能体系统建模人类社会思维
⏶
24
通过监督学习框架实现 RLVR 的隐式 Actor-Critic 耦合
⏶
22
不止于最后一个答案:你的推理轨迹揭示的远超你的想象
⏶
22
ViCrit:一个用于视觉语言模型(VLM)中视觉感知的可验证强化学习代理任务
⏶
21
VistaDPO: 用于大型视频模型的视频分层时空直接偏好优化
⏶
20
大型语言模型是贪婪的智能体:强化学习微调对决策能力的影响
⏶
20
QuaDMix:用于高效 LLM 预训练的质量-多样性平衡数据选择
⏶
20
PersonaFeedback:一个大规模人工标注的个性化基准
⏶
19
DUMP:基于RL的LLM后训练的自动化分布级别课程学习
⏶
19
WALL-E 2.0:通过神经符号学习进行世界对齐改进基于世界模型的大型语言模型智能体
⏶
19
SEED-GRPO: 语义熵增强的 GRPO 用于不确定性感知的策略优化
⏶
19
稳定知识,促进推理:用于RLVR的双令牌约束
⏶
18
Pre-DPO:通过引导参考模型提高直接偏好优化中的数据利用率
⏶
18
StructEval:评估 LLMs 生成结构化输出能力的基准
⏶
17
从人类反馈中进行纳什学习
⏶
17
大型语言模型能否帮助多模态语言分析?MMLA:综合基准
⏶
17
s3: 通过强化学习训练一个搜索智能体,你不需要那么多数据
⏶
16
SocioVerse:一个由LLM代理和一千万真实世界用户池驱动的社交模拟世界模型
⏶
16
优化面向意大利语的LLM:通过词汇适应减少Token冗余并提升效率
⏶
16
哪些数据属性激发了数学和代码推理?一项通过影响函数的研究
⏶
15
WPO:通过加权偏好优化增强RLHF
⏶
15
睡眠时间计算:超越测试时推理扩展
⏶
15
解耦全局-局部对齐用于提升组合理解
⏶
15
对先验的深思:大型语言模型在知识图谱上的可信推理
⏶
15
MiCRo:用于个性化偏好学习的混合建模与上下文感知路由
⏶
14
大型语言模型中复杂推理的生成式评估
⏶
14
LLM推理的极简主义方法:从拒绝采样到强化学习
⏶
14
CLASH:从多角度评判高风险困境的语言模型评估
⏶
14
迈向动态心智理论:评估 LLM 对人类状态时间演变的适应性
⏶
14
大型语言模型中的个性化安全:一个基准与一种基于规划的智能体方法
⏶
13
工程领域的LLMs:教会模型设计高性能火箭
⏶
13
健康的LLM?对LLM了解英国政府公共卫生信息的基准测试
⏶
13
大语言模型是局部线性映射
⏶
12
Sculptor: 通过主动上下文管理赋予LLM认知代理能力
⏶
11
博士水平的LLMs真的掌握了初等加法吗?探究大型语言模型中的规则学习与记忆
⏶
11
X-Fusion: 引入新模态到冻结的大型语言模型
⏶
11
SlimMoE:通过专家精简和蒸馏对大型MoE模型进行结构化压缩
⏶
11
LettinGo:探索推荐系统中的用户画像生成
⏶
11
RExBench: 编程智能体能否自主实现AI研究扩展?
⏶
11
及时行事事半功倍:语言模型的积极自我完善
⏶
10
思想的协同:利用最小自由分解改进 LLM CoT
⏶
10
驯服巨头:高效 LLM 推理服务综述
⏶
10
截断式近端策略优化
⏶
9
ExpertLongBench:通过结构化核对表评估语言模型在专家级长篇生成任务上的表现
⏶
8
强化微调的幻觉代价
⏶
8
AGENTIF:在智能体场景下评估大型语言模型遵循指令的能力
⏶
8
ReCode:基于强化学习更新代码API知识
⏶
7
Progent:大型语言模型智能体的可编程权限控制
⏶
7
IberBench:在伊比利亚语言上的 LLM 评估
⏶
7
良好的开端是成功的一半:通过弱到强解码实现低资源偏好对齐
⏶
6
预训练语言模型用于历时语言变化发现
⏶
6
通过使用大型语言模型的离线模拟实现软件脚本自动化中的技能发现
⏶
6
MedCaseReasoning: 从临床病例报告中评估和学习诊断推理
⏶
6
通过半非负矩阵分解将MLP激活分解为可解释特征
⏶
6
RL-PLUS:通过混合策略优化对抗LLM在强化学习中能力边界崩溃的问题
⏶
5
对计算高效测试时扩展的最优验证粒度的再思考
⏶
5
R1-Searcher++:通过强化学习激励大型语言模型(LLMs)的动态知识获取
⏶
5
解耦理解与引导式思维链推理的有害模因检测方法
⏶
5
AsyncFlow:一个用于高效LLM后训练的异步流式RL框架
⏶
5
引导式解码及其在检索增强生成中的关键作用
⏶
4
LLM可能是危险的说服者:大型语言模型中说服安全性的实证研究
⏶
4
LazyReview:一个用于揭示NLP同行评审中惰性思维的数据集
⏶
4
RL Tango:协同增强生成器和验证器用于语言推理
⏶
4
LLM能欺骗CLIP吗?通过文本更新基准测试预训练多模态表示的对抗性组合性
⏶
4
DLP:大型语言模型中的动态逐层剪枝
⏶
4
小型语言模型是代理 AI 的未来
⏶
4
用于联合生成式搜索和推荐的语义 ID
⏶
4
剖析工具集成推理:一项实证研究与分析
⏶
3
MCP安全审计:具有模型上下文协议的LLM允许重大安全漏洞
⏶
3
注意力机制视角:探索大语言模型处理图结构数据
⏶
3
文档引用归属:使用大型语言模型研究引用关系
⏶
3
HelpSteer3-Preference:跨不同任务和语言的开放人工标注偏好数据
⏶
3
扩展和增强基于 LLM 的 AVSR:稀疏投影器混合方法
⏶
3
保持安全! 对大语言模型在问答中应对间接攻击时的安全策略保持情况进行基准测试