每日论文

MiMo-VL 技术报告

AmbiK：厨房环境中的歧义任务数据集

AmbiK：厨房环境中的歧义任务数据集

推进多模态推理：从优化冷启动到分阶段强化学习

推进多模态推理：从优化冷启动到分阶段强化学习

CASS: 基于数据、模型和基准的英伟达到AMD转译

CASS: 基于数据、模型和基准的英伟达到AMD转译

长上下文语言模型的可控测试

MMR-V：哪些未被言说？一个用于视频中多模态深度推理的基准

MMR-V：哪些未被言说？一个用于视频中多模态深度推理的基准

SuperWriter：基于反思的大型语言模型长篇内容生成

SuperWriter：基于反思的大型语言模型长篇内容生成

OpenThoughts：推理模型的数据配方

OpenThoughts：推理模型的数据配方

通过快捷神经元分析建立可靠的LLM评估

通过快捷神经元分析建立可靠的LLM评估

Voyager: 用于可探索 3D 场景生成的长距离和世界一致视频扩散

VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码

VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码

IllumiCraft：统一几何与光照扩散实现可控视频生成

IllumiCraft：统一几何与光照扩散实现可控视频生成

利用扩散模型实现程序化图像编辑

利用扩散模型实现程序化图像编辑

通过对单一问题进行批判性微调，释放预训练大语言模型的推理潜力

通过对单一问题进行批判性微调，释放预训练大语言模型的推理潜力

Ψ-采样器：分数模型中基于SMC的推理时奖励对齐的初始粒子采样

Ψ-采样器：分数模型中基于SMC的推理时奖励对齐的初始粒子采样

LayerFlow：用于层感知视频生成的统一模型

LayerFlow：用于层感知视频生成的统一模型

SVGenius: 对大型语言模型在SVG理解、编辑和生成方面进行基准测试

SVGenius: 对大型语言模型在SVG理解、编辑和生成方面进行基准测试

DenseDPO：用于视频扩散模型的细粒度时间偏好优化

DenseDPO：用于视频扩散模型的细粒度时间偏好优化

TimeHC-RL：用于增强大型语言模型社交智能的时序感知分层认知强化学习

TimeHC-RL：用于增强大型语言模型社交智能的时序感知分层认知强化学习

修正稀疏注意力

Orak：用于训练和评估 LLM 代理在各种视频游戏中的基础基准

Orak：用于训练和评估 LLM 代理在各种视频游戏中的基础基准

超越表面：衡量大型语言模型判断中的自我偏好

超越表面：衡量大型语言模型判断中的自我偏好

BenchHub：一个用于全面且可定制LLM评估的统一基准套件

BenchHub：一个用于全面且可定制LLM评估的统一基准套件

DiffDecompose：通过扩散Transformer实现Alpha合成图像的逐层分解

DiffDecompose：通过扩散Transformer实现Alpha合成图像的逐层分解

TalkingMachines：通过自回归扩散模型生成实时音频驱动的FaceTime风格视频

TalkingMachines：通过自回归扩散模型生成实时音频驱动的FaceTime风格视频

Critique-GRPO：利用自然语言和数值反馈推进大型语言模型推理

Critique-GRPO：利用自然语言和数值反馈推进大型语言模型推理

跨领域鲁棒性：CLIP 需要一个鲁棒的文本编码器

跨领域鲁棒性：CLIP 需要一个鲁棒的文本编码器

CapSpeech：在风格字幕文本到语音中实现下游应用

CapSpeech：在风格字幕文本到语音中实现下游应用

POSS：位置专家为推测解码生成更好的草稿

POSS：位置专家为推测解码生成更好的草稿

在持续学习之前进行适应

Video-Skill-CoT：用于领域自适应视频推理的基于技能的思维链

Video-Skill-CoT：用于领域自适应视频推理的基于技能的思维链

DLP：大型语言模型中的动态逐层剪枝

DLP：大型语言模型中的动态逐层剪枝

通过置信度引导的数据增强改进未知协变量偏移下的知识蒸馏

通过置信度引导的数据增强改进未知协变量偏移下的知识蒸馏

RefEdit：用于改进基于指令的图像编辑模型在指代表达方面性能的基准与方法

RefEdit：用于改进基于指令的图像编辑模型在指代表达方面性能的基准与方法

定量大型语言模型评估器

跟随流程：基于神经符号智能体的细粒度流程图归因

跟随流程：基于神经符号智能体的细粒度流程图归因

TRiSM 面向智能体AI：基于大型语言模型的智能体多智能体系统中的信任、风险和安全管理综述

TRiSM 面向智能体AI：基于大型语言模型的智能体多智能体系统中的信任、风险和安全管理综述

HTSC-2025：用于 AI 驱动的临界温度预测的常压高温超导体基准数据集

HTSC-2025：用于 AI 驱动的临界温度预测的常压高温超导体基准数据集

释放小时级视频训练以实现长视频-语言理解

释放小时级视频训练以实现长视频-语言理解

分段策略优化：大型语言模型强化学习中有效的段级信用分配

分段策略优化：大型语言模型强化学习中有效的段级信用分配

Rex-Thinker：通过思维链推理实现接地对象指代

Rex-Thinker：通过思维链推理实现接地对象指代

VLMs 可以聚合分散的训练补丁

VLMs 可以聚合分散的训练补丁

从架构视角重新思考持续学习中的稳定性-可塑性权衡

从架构视角重新思考持续学习中的稳定性-可塑性权衡

结合非对称双3D高斯溅射的野外鲁棒神经渲染

结合非对称双3D高斯溅射的野外鲁棒神经渲染

FinChain：一个用于可验证金融推理思维链的符号基准

FinChain：一个用于可验证金融推理思维链的符号基准

用 FLAIR 解决逆问题

CRAWLDoc：一个用于书目文档鲁棒排序的数据集

CRAWLDoc：一个用于书目文档鲁棒排序的数据集

小型语言模型是代理 AI 的未来

小型语言模型是代理 AI 的未来

主动学习超参数综述：来自大规模实验网格的启示

主动学习超参数综述：来自大规模实验网格的启示

让物体发声：交互式物体感知图像到音频生成

让物体发声：交互式物体感知图像到音频生成

RiOSWorld：基准测试多模态计算机使用代理的风险

RiOSWorld：基准测试多模态计算机使用代理的风险