AI论文精选
每日论文
◀
05月27日
▶
⏶
215
Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译
⏶
145
将AI效率从模型中心转向数据中心压缩
⏶
73
Alchemist: 将公共文本到图像数据转化为生成式黄金
⏶
61
BizFinBench:一个用于评估大型语言模型的业务驱动型真实世界金融基准
⏶
46
具身智能体遇见个性化:探索记忆利用实现个性化辅助
⏶
46
PATS: 过程级自适应思维模式切换
⏶
43
ARM:自适应推理模型
⏶
41
Enigmata:使用合成可验证谜题扩展大型语言模型的逻辑推理能力
⏶
36
解读轨迹辅助的LLM推理:一个优化视角
⏶
30
B-score:利用响应历史检测大语言模型中的偏见
⏶
30
格式和长度的替代信号:通过强化学习解决无标准答案的数学问题
⏶
27
Flex-Judge:一次思考,随处评判
⏶
26
无需外部奖励的学习推理
⏶
24
MOOSE-Chem2:通过分层搜索探索LLM在细粒度科学假设发现中的极限
⏶
23
MLLMs能指引我回家吗?一项基于交通地图的细粒度视觉推理基准研究
⏶
23
语言模型的终身安全对齐
⏶
21
ModernGBERT:从头开始训练的德语专用10亿参数编码器模型
⏶
20
Jodi: 通过联合建模统一视觉生成与理解
⏶
18
强化微调增强多模态大语言模型的推理能力
⏶
18
StructEval:评估 LLMs 生成结构化输出能力的基准
⏶
17
离散马尔可夫桥
⏶
17
Omni-R1:基于双系统协作实现全模态推理的强化学习
⏶
17
REARANK:通过强化学习的推理重排序代理
⏶
17
Hybrid Neural-MPM:用于实时交互式流体模拟
⏶
16
哪些数据属性激发了数学和代码推理?一项通过影响函数的研究
⏶
15
氛围式编码 vs. 智能体化编码:智能体人工智能的基本原理与实际影响
⏶
14
AdaCtrl: 通过难度感知预算实现自适应和可控推理
⏶
13
带有尺度感知KV缓存压缩的内存高效视觉自回归建模
⏶
13
完成胜于完美:通过结构化多轮分解解锁高效推理
⏶
13
WHISTRESS:通过句子重音检测丰富转录
⏶
12
G1: 通过强化学习自举视觉语言模型的感知和推理能力
⏶
12
通过强化学习实现的大型语言模型交错推理
⏶
12
探索高效推理:面向CoT蒸馏的数据中心基准
⏶
11
大型多模态模型中用于细粒度几何理解的难负样本对比学习
⏶
11
力提示:视频生成模型可以学习和泛化基于物理的控制信号
⏶
10
InfantAgent-Next:一个用于自动化计算机交互的多模态通用智能体
⏶
10
MLR-Bench: 评估人工智能代理在开放式机器学习研究中的表现
⏶
9
从数十小时到数万小时:扩展用于语音识别的回译
⏶
9
WINA:用于加速大语言模型推理的权重感知神经元激活
⏶
8
LLaDA 1.5: 大型语言扩散模型的方差降低偏好优化
⏶
8
STAR-R1:通过强化多模态大语言模型实现空间变换推理
⏶
7
覆盖原理:理解组合泛化的框架
⏶
7
针对攻击性网络安全智能体的动态风险评估
⏶
7
针对大规模数据集和(中等规模)大型语言模型的强成员推理攻击
⏶
6
重新思考用于LLM推理的强化学习中的采样标准:一个能力-难度对齐视角
⏶
6
通过 Mirror Prox 加速来自人类反馈的纳什学习
⏶
6
不要“过度思考”段落重排序:推理真的必要吗?
⏶
5
观点:机制可解释性应优先考虑SAEs中的特征一致性
⏶
5
DoctorAgent-RL:一个用于多轮临床对话的多智能体协作强化学习系统
⏶
5
通过强化学习的混合潜在推理
⏶
4
GLEAM:学习在复杂三维室内场景中主动建图的可泛化探索策略
⏶
4
一种抵御大型语言模型擦除攻击的简单防御
⏶
4
在数学推理中衔接监督学习与强化学习
⏶
3
错误类型划分以获得更智能的奖励:使用错误感知的分层监督改进过程奖励模型
⏶
3
EquivPruner:通过动作剪枝提升基于LLM的搜索的效率和质量
⏶
3
用于批内数据窃取和模型推理操纵的架构后门
⏶
3
UFT:统一监督与强化微调
⏶
2
大型音视语言模型综合评估展望:一项全面综述
⏶
2
TAGS:一个具有检索增强推理和验证的测试时通用-专家框架
⏶
2
FLAME-MoE:一个用于混合专家语言模型的透明端到端研究平台
⏶
2
InstructPart:面向任务的部分分割与指令推理
⏶
2
MMIG-Bench:迈向全面和可解释的多模态图像生成模型评估
⏶
2
DiSA: 自回归图像生成中的扩散步退火
⏶
2
眼见为实,但可信度几何? 对视觉-语言模型中言语化校准的综合分析
⏶
2
机器的语用心智:追溯大型语言模型中语用能力的涌现
⏶
1
MOLE: 使用大型语言模型提取和验证科学论文中的元数据
⏶
1
用于离线目标条件强化学习的选项感知时间抽象值
⏶
1
知识的诞生:大型语言模型中跨时间、空间和尺度的涌现特征
⏶
1
EgoZero:从智能眼镜中学习的机器人
⏶
1
文本引导向量可以在多模态大语言模型中提升视觉理解