每日论文

置信度即所需一切：语言模型的少样本强化学习微调

置信度即所需一切：语言模型的少样本强化学习微调

Seedance 1.0: 探索视频生成模型的边界

Seedance 1.0: 探索视频生成模型的边界

多元宇宙：您的语言模型秘密决定如何并行化和合并生成

多元宇宙：您的语言模型秘密决定如何并行化和合并生成

ComfyUI-R1: 探索用于工作流生成的推理模型

ComfyUI-R1: 探索用于工作流生成的推理模型

实时交互式视频生成的自回归对抗后训练

实时交互式视频生成的自回归对抗后训练

PlayerOne: 自我中心世界模拟器

PlayerOne: 自我中心世界模拟器

自回归与流匹配：文本到音乐生成建模范式的比较研究

自回归与流匹配：文本到音乐生成建模范式的比较研究

SeerAttention-R: 用于长程推理的稀疏注意力自适应

SeerAttention-R: 用于长程推理的稀疏注意力自适应

SWE-Flow: 以测试驱动方式合成软件工程数据

SWE-Flow: 以测试驱动方式合成软件工程数据

CoRT：思维中的代码集成推理

CoRT：思维中的代码集成推理

给我FP32，否则宁死？可复现推理的挑战与解决方案

给我FP32，否则宁死？可复现推理的挑战与解决方案

InterActHuman：带有布局对齐音频条件的多概念人体动画

InterActHuman：带有布局对齐音频条件的多概念人体动画

是时候谈谈了：LLM 智能体在狼人杀游戏中的异步群组沟通

是时候谈谈了：LLM 智能体在狼人杀游戏中的异步群组沟通

视觉至关重要：简单的视觉扰动可以提升多模态数学推理

视觉至关重要：简单的视觉扰动可以提升多模态数学推理

SAFE: 视觉-语言-动作模型的多任务故障检测

SAFE: 视觉-语言-动作模型的多任务故障检测

隐藏在众目睽睽之下：VLM 忽视了它们的视觉表征

隐藏在众目睽睽之下：VLM 忽视了它们的视觉表征

通过双体素封装高效生成部件级3D对象

通过双体素封装高效生成部件级3D对象

UFM：通向结合光流的统一稠密对应的一条简单路径

用于微调视频扩散模型的跨帧表征对齐

用于微调视频扩散模型的跨帧表征对齐

视觉语言模型能否推断人类凝视方向？一项对照研究

基于正交等价变换的重新参数化大语言模型训练

基于正交等价变换的重新参数化大语言模型训练

MIRAGE：用于全面视网膜OCT图像分析的多模态基础模型与基准

MIRAGE：用于全面视网膜OCT图像分析的多模态基础模型与基准

大型语言模型中的查询级不确定性

大型语言模型中的查询级不确定性

分支薛定谔桥匹配

Kvasir-VQA-x1: 一个用于胃肠道内窥镜医学推理和鲁棒医学视觉问答的多模态数据集

Kvasir-VQA-x1: 一个用于胃肠道内窥镜医学推理和鲁棒医学视觉问答的多模态数据集

何时信任上下文：上下文可靠性的自我反思式辩论

何时信任上下文：上下文可靠性的自我反思式辩论

倡议协同智能：为什么人机代理系统应先于人工智能自治

倡议协同智能：为什么人机代理系统应先于人工智能自治

TTT-Bench：一个用于评估简单且新颖的井字棋（Tic-Tac-Toe）风格游戏推理能力的基准

TTT-Bench：一个用于评估简单且新颖的井字棋（Tic-Tac-Toe）风格游戏推理能力的基准