AI论文精选
大型语言模型 (LLMs)
⏶
102
TTRL:测试时强化学习
⏶
101
ScienceBoard:评测多模态自主智能体在真实科学工作流程中
⏶
90
使用一个训练样本对大型语言模型进行推理的强化学习
⏶
80
Voila:用于实时自主交互和语音角色扮演的语音-语言基础模型
⏶
68
利用元学习进行系统提示优化
⏶
68
R2R:利用大小模型令牌路由高效探索分支推理路径
⏶
64
SynLogic:大规模合成可验证推理数据,迈向逻辑推理及其他领域
⏶
64
攀登凿刻的智慧比山顶更深邃:关于学习推理中的嘈杂奖励
⏶
61
C3PO:用于测试时专家重混合的关键层、核心专家、协作路径优化
⏶
46
具身智能体遇见个性化:探索记忆利用实现个性化辅助
⏶
46
PATS: 过程级自适应思维模式切换
⏶
45
VCR-Bench:视频链式思考推理的综合评估框架
⏶
39
Phi-4-Mini-Reasoning:探索小型推理语言模型在数学领域的极限
⏶
36
对比偏好优化:在机器翻译中突破LLM性能的界限
⏶
35
PHYBench:大语言模型的物理感知与推理综合评估
⏶
35
基于预算相对策略优化的随时推理优化
⏶
33
OTC:基于强化学习的最优工具调用
⏶
31
VLM-R1:稳定且可泛化的R1风格大型视觉语言模型
⏶
30
资源受限情况下大型语言模型的全参数微调
⏶
28
集体思维:多个并发推理智能体在令牌级粒度上协作
⏶
27
TextArena
⏶
27
小型LLM在数据合成中的战略协调框架与大型LLM相匹配
⏶
27
BookWorld:从小说到交互式智能体社会,用于创意故事生成
⏶
26
黑暗中探索:基于测试时实例级策略梯度在潜在空间中的推理
⏶
25
AlayaDB:高效且有效的长上下文LLM推理的数据基础
⏶
24
ReplaceMe:通过层剪枝和线性变换进行网络简化
⏶
24
MetaMind:使用元认知多智能体系统建模人类社会思维
⏶
22
不止于最后一个答案:你的推理轨迹揭示的远超你的想象
⏶
21
VistaDPO: 用于大型视频模型的视频分层时空直接偏好优化
⏶
20
大型语言模型是贪婪的智能体:强化学习微调对决策能力的影响
⏶
20
QuaDMix:用于高效 LLM 预训练的质量-多样性平衡数据选择
⏶
19
DUMP:基于RL的LLM后训练的自动化分布级别课程学习
⏶
19
WALL-E 2.0:通过神经符号学习进行世界对齐改进基于世界模型的大型语言模型智能体
⏶
19
SEED-GRPO: 语义熵增强的 GRPO 用于不确定性感知的策略优化
⏶
18
Pre-DPO:通过引导参考模型提高直接偏好优化中的数据利用率
⏶
18
StructEval:评估 LLMs 生成结构化输出能力的基准
⏶
17
从人类反馈中进行纳什学习
⏶
17
大型语言模型能否帮助多模态语言分析?MMLA:综合基准
⏶
17
s3: 通过强化学习训练一个搜索智能体,你不需要那么多数据
⏶
16
SocioVerse:一个由LLM代理和一千万真实世界用户池驱动的社交模拟世界模型
⏶
16
优化面向意大利语的LLM:通过词汇适应减少Token冗余并提升效率
⏶
16
哪些数据属性激发了数学和代码推理?一项通过影响函数的研究
⏶
15
WPO:通过加权偏好优化增强RLHF
⏶
15
睡眠时间计算:超越测试时推理扩展
⏶
15
解耦全局-局部对齐用于提升组合理解
⏶
15
对先验的深思:大型语言模型在知识图谱上的可信推理
⏶
15
MiCRo:用于个性化偏好学习的混合建模与上下文感知路由
⏶
14
大型语言模型中复杂推理的生成式评估
⏶
14
LLM推理的极简主义方法:从拒绝采样到强化学习
⏶
14
CLASH:从多角度评判高风险困境的语言模型评估
⏶
14
迈向动态心智理论:评估 LLM 对人类状态时间演变的适应性
⏶
14
大型语言模型中的个性化安全:一个基准与一种基于规划的智能体方法
⏶
13
工程领域的LLMs:教会模型设计高性能火箭
⏶
13
健康的LLM?对LLM了解英国政府公共卫生信息的基准测试
⏶
13
大语言模型是局部线性映射
⏶
11
博士水平的LLMs真的掌握了初等加法吗?探究大型语言模型中的规则学习与记忆
⏶
11
X-Fusion: 引入新模态到冻结的大型语言模型
⏶
10
思想的协同:利用最小自由分解改进 LLM CoT
⏶
10
驯服巨头:高效 LLM 推理服务综述
⏶
8
强化微调的幻觉代价
⏶
8
AGENTIF:在智能体场景下评估大型语言模型遵循指令的能力
⏶
7
Progent:大型语言模型智能体的可编程权限控制
⏶
7
IberBench:在伊比利亚语言上的 LLM 评估
⏶
6
预训练语言模型用于历时语言变化发现
⏶
6
通过使用大型语言模型的离线模拟实现软件脚本自动化中的技能发现
⏶
6
MedCaseReasoning: 从临床病例报告中评估和学习诊断推理
⏶
5
对计算高效测试时扩展的最优验证粒度的再思考
⏶
5
R1-Searcher++:通过强化学习激励大型语言模型(LLMs)的动态知识获取
⏶
4
LLM可能是危险的说服者:大型语言模型中说服安全性的实证研究
⏶
4
LazyReview:一个用于揭示NLP同行评审中惰性思维的数据集
⏶
4
RL Tango:协同增强生成器和验证器用于语言推理
⏶
4
LLM能欺骗CLIP吗?通过文本更新基准测试预训练多模态表示的对抗性组合性
⏶
4
DLP:大型语言模型中的动态逐层剪枝
⏶
3
MCP安全审计:具有模型上下文协议的LLM允许重大安全漏洞
⏶
3
注意力机制视角:探索大语言模型处理图结构数据
⏶
3
文档引用归属:使用大型语言模型研究引用关系
⏶
3
HelpSteer3-Preference:跨不同任务和语言的开放人工标注偏好数据
⏶
3
扩展和增强基于 LLM 的 AVSR:稀疏投影器混合方法
⏶
3
保持安全! 对大语言模型在问答中应对间接攻击时的安全策略保持情况进行基准测试
⏶
3
并非所有模型都适合专家卸载:论专家混合模型的局部路由一致性
⏶
3
EquivPruner:通过动作剪枝提升基于LLM的搜索的效率和质量
⏶
3
DFIR-Metric: 用于评估大型语言模型在数字取证和事件响应中表现的基准数据集
⏶
3
形式不确定性语法:自动化推理任务中何时信任大语言模型
⏶
2
LLM中的分词约束:符号和算术推理限制研究
⏶
2
TIME:一个用于大型语言模型在现实世界场景中进行时间推理的多层级基准
⏶
2
TAGS:一个具有检索增强推理和验证的测试时通用-专家框架
⏶
2
PreMoe:通过专家剪枝和检索减轻受限内存上的 MoEs
⏶
2
小型语言模型是代理 AI 的未来
⏶
1
MOLE: 使用大型语言模型提取和验证科学论文中的元数据
⏶
1
知识增强的Text-to-SQL的知识库构建