每日论文

将RL扩展到长视频

T-LoRA：单图扩散模型定制，避免过拟合

T-LoRA：单图扩散模型定制，避免过拟合

可追溯证据增强的视觉接地推理：评估与方法

可追溯证据增强的视觉接地推理：评估与方法

多粒度时空 Token 合并，用于视频 LLM 的免训练加速

多粒度时空 Token 合并，用于视频 LLM 的免训练加速

OST-Bench：评估 MLLM 在线时空场景理解的能力

LangSplatV2：450+ FPS高维3D语言高斯泼溅

几何强制：融合视频扩散与3D表示，实现一致的世界建模

几何强制：融合视频扩散与3D表示，实现一致的世界建模

PyVision：具有动态工具的代理视觉

PyVision：具有动态工具的代理视觉

跳过层还是循环利用？预训练大语言模型的测试时深度自适应

跳过层还是循环利用？预训练大语言模型的测试时深度自适应

长视频故事生成综述：架构、一致性与电影级质量

长视频故事生成综述：架构、一致性与电影级质量

Token 瓶颈：一个 Token 记忆动态

Token 瓶颈：一个 Token 记忆动态

端到端层次序列建模的动态分块

机器胡言乱语：刻画大型语言模型中新兴的对真相的漠视

机器胡言乱语：刻画大型语言模型中新兴的对真相的漠视

SciMaster：迈向通用科学 AI 智能体，第一部分。以 X-Master 为基础：我们能否在人类的终极考试中取得领先？

SciMaster：迈向通用科学 AI 智能体，第一部分。以 X-Master 为基础：我们能否在人类的终极考试中取得领先？

突破线性可分性上限

成长型Transformer：在冻结基底上的模块化组合与逐层扩展

成长型Transformer：在冻结基底上的模块化组合与逐层扩展

超越词元嵌入的涌现语义：带有冻结视觉Unicode表示的Transformer语言模型

超越词元嵌入的涌现语义：带有冻结视觉Unicode表示的Transformer语言模型

再瓶颈：神经音频自编码器的潜在重构

再瓶颈：神经音频自编码器的潜在重构