AI论文精选
每日论文
◀
11月04日
▶
⏶
81
每一次激活都被提升:将通用推理器扩展到万亿开放语言基础
⏶
47
EBT-Policy:能量解锁新兴的物理推理能力
⏶
40
将测试时计算最优扩展泛化为可优化图
⏶
39
基于视频基础模型的物理AI世界模拟
⏶
37
UniREditBench:一个统一的基于推理的图像编辑基准
⏶
35
视觉模型在图结构理解中被低估的力量
⏶
33
UniLumos:通过物理合理反馈实现快速统一的图像和视频重新照明
⏶
31
ROVER:基准测试全模态生成中的互惠跨模态推理
⏶
31
MR-Align:元推理辅助大型推理模型的事实对齐
⏶
28
PHUMA:物理接地类人机器人运动数据集
⏶
26
MotionStream:具有交互式运动控制的实时视频生成
⏶
22
ToolScope:一个用于视觉引导和长程工具使用的智能体框架
⏶
21
LongCat-Flash-Omni 技术报告
⏶
20
OpenSIR:开放式自改进推理器
⏶
17
迈向通用视频检索:通过合成多模态金字塔课程泛化视频嵌入
⏶
15
TIR-Bench:一个用于智能体图像推理的综合基准
⏶
13
NaviTrace:评估视觉-语言模型的具身导航能力
⏶
12
left|,circlearrowright,text{BUS},right|:一个用于评估视觉语言模型理解画谜能力的大型多样化多模态基准
⏶
11
视觉-语言模型是否达标?用MeasureBench基准测试视觉测量读取
⏶
10
Trove:一个灵活的密集检索工具包
⏶
9
通过离策略影响指导实现数据高效RLVR
⏶
9
Actial:激活多模态大型语言模型的空间推理能力
⏶
7
迈向鲁棒的数学推理
⏶
6
外科医生离手术世界模型还有多远?一项关于零样本手术视频生成与专家评估的初步研究
⏶
6
统一扩散VLA:通过联合离散去噪扩散过程实现的视觉-语言-动作模型
⏶
5
UME-R1:探索推理驱动的生成多模态嵌入
⏶
3
GUI-AIMA:将内在多模态注意力与上下文锚点对齐以实现 GUI 定位
⏶
3
AthenaBench:一个用于评估大语言模型在网络威胁情报方面能力的动态基准
⏶
2
Vote-in-Context: 将 VLM 转化为零样本排名融合器
⏶
2
基于秩2子空间解耦的多步知识交互分析
◀ 前一日
后一日 ▶