每日论文

ProRL：长期强化学习拓展大型语言模型的推理边界

ProRL：长期强化学习拓展大型语言模型的推理边界

AlphaOne：测试时慢思考和快思考的推理模型

AlphaOne：测试时慢思考和快思考的推理模型

时间盲区：为什么视频-语言模型无法像人类一样“看”？

时间盲区：为什么视频-语言模型无法像人类一样“看”？

大型语言模型用于数据合成

大型语言模型用于数据合成

HardTests：为LLM编码合成高质量测试用例

HardTests：为LLM编码合成高质量测试用例

不要只看一次：迈向结合选择性视觉回顾的多模态交互式推理

不要只看一次：迈向结合选择性视觉回顾的多模态交互式推理

ViStoryBench：故事可视化综合基准套件

DINO-R1: 激励视觉基础模型的推理能力

DINO-R1: 激励视觉基础模型的推理能力

Open CaptchaWorld：一个用于测试和基准测试多模态LLM代理的综合性网络平台

Open CaptchaWorld：一个用于测试和基准测试多模态LLM代理的综合性网络平台

EXP-Bench: AI 能否进行 AI 研究实验？

EXP-Bench: AI 能否进行 AI 研究实验？

CoDA：协调扩散噪声优化，用于铰接物体的全身操纵

MoDoMoDo: 用于多模态大模型强化学习的多领域数据混合

MoDoMoDo: 用于多模态大模型强化学习的多领域数据混合

视觉语言模型存在偏见

EmergentTTS-Eval：使用模型作为评判者评估TTS模型在复杂的韵律、表现力和语言挑战上的表现

EmergentTTS-Eval：使用模型作为评判者评估TTS模型在复杂的韵律、表现力和语言挑战上的表现

MetaFaith：LLM中忠实的自然语言不确定性表达

MetaFaith：LLM中忠实的自然语言不确定性表达

UniGeo：控制视频扩散模型用于统一一致的几何估计

UniGeo：控制视频扩散模型用于统一一致的几何估计

思考更多，感知更少？：评估多模态推理模型中的放大幻觉

思考更多，感知更少？：评估多模态推理模型中的放大幻觉

大语言模型是局部线性映射

大语言模型是局部线性映射

CLaSp：用于自推测解码的上下文层跳过

CLaSp：用于自推测解码的上下文层跳过

EasyText：用于多语言文本渲染的可控扩散Transformer

EasyText：用于多语言文本渲染的可控扩散Transformer

分叉-合并解码：增强音视频大语言模型中的多模态理解

分叉-合并解码：增强音视频大语言模型中的多模态理解

ReasonGen-R1：基于SFT和RL的自回归图像生成模型思维链（CoT）

ReasonGen-R1：基于SFT和RL的自回归图像生成模型思维链（CoT）

利用负面信号：从教师数据中进行强化蒸馏以用于LLM推理

利用负面信号：从教师数据中进行强化蒸馏以用于LLM推理

DexUMI：将人手作为灵巧操作的通用操作界面

评估和引导多模态大型语言模型中的模态偏好

评估和引导多模态大型语言模型中的模态偏好

大型语言模型的角色扮演评估

ChARM：针对高级角色扮演语言智能体的基于角色的行为自适应奖励建模

ChARM：针对高级角色扮演语言智能体的基于角色的行为自适应奖励建模

实现灵活的多大语言模型集成用于可扩展的知识聚合

实现灵活的多大语言模型集成用于可扩展的知识聚合

Point-MoE: 迈向基于专家混合的3D语义分割跨领域泛化

Point-MoE: 迈向基于专家混合的3D语义分割跨领域泛化

利用大型语言模型检测科学新颖性

利用大型语言模型检测科学新颖性

un^2CLIP：通过反转 unCLIP 提升 CLIP 的视觉细节捕捉能力

un^2CLIP：通过反转 unCLIP 提升 CLIP 的视觉细节捕捉能力

微调SLM还是提示LLM？以生成低代码工作流为例

微调SLM还是提示LLM？以生成低代码工作流为例

SiLVR: 一个简单的基于语言的视频推理框架

SiLVR: 一个简单的基于语言的视频推理框架

再探循环神经网络中的双线性状态转移

再探循环神经网络中的双线性状态转移

GATE：通用阿拉伯语文本嵌入，用于增强语义文本相似度，采用 Matryoshka 表示学习和混合损失训练

GATE：通用阿拉伯语文本嵌入，用于增强语义文本相似度，采用 Matryoshka 表示学习和混合损失训练

形式不确定性语法：自动化推理任务中何时信任大语言模型

形式不确定性语法：自动化推理任务中何时信任大语言模型

TRIDENT: 通过三维多样化红队对抗数据合成，增强大语言模型安全性

TRIDENT: 通过三维多样化红队对抗数据合成，增强大语言模型安全性

LegalSearchLM：将法律案件检索重新思考为法律要素生成

LegalSearchLM：将法律案件检索重新思考为法律要素生成

OMNIGUARD: 一种跨模态 AI 安全审核的有效方法

OMNIGUARD: 一种跨模态 AI 安全审核的有效方法

自动化但充满风险的博弈：消费者市场中代理间协商和交易的建模

自动化但充满风险的博弈：消费者市场中代理间协商和交易的建模

多语言LLM安全研究现状：从衡量语言鸿沟到弥合它

多语言LLM安全研究现状：从衡量语言鸿沟到弥合它

上下文是金，寻得“黄金段落”：评估与训练上下文文档嵌入

上下文是金，寻得“黄金段落”：评估与训练上下文文档嵌入