每日论文

Table-R1：面向表格推理的推理时缩放

Table-R1：面向表格推理的推理时缩放

Spatial-MLLM：提升MLLM在基于视觉的空间智能方面的能力

攀登凿刻的智慧比山顶更深邃：关于学习推理中的嘈杂奖励

攀登凿刻的智慧比山顶更深邃：关于学习推理中的嘈杂奖励

VF-Eval：评估多模态LLM在生成AIGC视频反馈方面的能力

VF-Eval：评估多模态LLM在生成AIGC视频反馈方面的能力

ZeroGUI：以零人力成本自动化在线GUI学习

ZeroGUI：以零人力成本自动化在线GUI学习

VideoReasonBench：MLLM能否执行以视觉为中心的复杂视频推理？

Fast-dLLM：通过启用 KV 缓存和并行解码实现 Diffusion LLM 的免训练加速

Fast-dLLM：通过启用 KV 缓存和并行解码实现 Diffusion LLM 的免训练加速

D-AR：通过自回归模型的扩散

D-AR：通过自回归模型的扩散

AnySplat：从无约束视角进行前馈3D高斯溅射

AnySplat：从无约束视角进行前馈3D高斯溅射

cadrille: 基于在线强化学习的多模态 CAD 重建

cadrille: 基于在线强化学习的多模态 CAD 重建

推理模型是否更容易产生幻觉？

Satori-SWE：面向样本高效软件工程的进化式测试时缩放

Satori-SWE：面向样本高效软件工程的进化式测试时缩放

ATLAS：学习在测试时最优地记忆上下文

ATLAS：学习在测试时最优地记忆上下文

LoRAShop：使用校正流Transformer的免训练多概念图像生成与编辑

LoRAShop：使用校正流Transformer的免训练多概念图像生成与编辑

UniRL: 基于监督学习与强化学习的自我改进统一多模态模型

UniRL: 基于监督学习与强化学习的自我改进统一多模态模型

多领域偏好可解释性

多领域偏好可解释性

通过利用特征相关性有效训练稀疏自编码器

通过利用特征相关性有效训练稀疏自编码器

SWE-bench上线了！

VidText：面向视频文本理解的综合评估

VidText：面向视频文本理解的综合评估

FAMA：第一个面向英语和意大利语的大规模开放科学语音基础模型

FAMA：第一个面向英语和意大利语的大规模开放科学语音基础模型

StressTest: 你的语音语言模型能应对压力吗？

StressTest: 你的语音语言模型能应对压力吗？

迈向 LLM 中的安全推理：AI 智能体式审议用于策略嵌入式 CoT 数据创建

迈向 LLM 中的安全推理：AI 智能体式审议用于策略嵌入式 CoT 数据创建

重新排序图像块提升视觉模型

DeepTheorem：通过自然语言和强化学习提升LLM用于定理证明的推理能力

DeepTheorem：通过自然语言和强化学习提升LLM用于定理证明的推理能力

具有最优奖励基线的在策略强化学习

具有最优奖励基线的在策略强化学习

Muddit：用统一离散扩散模型解放超越文本到图像的生成

Muddit：用统一离散扩散模型解放超越文本到图像的生成

SafeScientist：迈向由LLM智能体实现的风险感知科学发现

SafeScientist：迈向由LLM智能体实现的风险感知科学发现

系统-1.5 推理：利用动态捷径遍历语言和隐空间

系统-1.5 推理：利用动态捷径遍历语言和隐空间

GeoDrive：具有精确动作控制的3D几何信息引导的驾驶世界模型

GeoDrive：具有精确动作控制的3D几何信息引导的驾驶世界模型

PatientSim：用于逼真医患交互的角色驱动模拟器

PatientSim：用于逼真医患交互的角色驱动模拟器

用于快速扩散采样的可微分求解器搜索

用于快速扩散采样的可微分求解器搜索

分解视频LLM基准：是知识、空间感知，还是真正的时序理解？

分解视频LLM基准：是知识、空间感知，还是真正的时序理解？

MAGREF：用于任意参考视频生成的遮罩引导

MAGREF：用于任意参考视频生成的遮罩引导

KVzip: 与查询无关的 KV 缓存压缩与上下文重构

KVzip: 与查询无关的 KV 缓存压缩与上下文重构

ToMAP：用心理理论训练对手感知型LLM说服者

ToMAP：用心理理论训练对手感知型LLM说服者

Uni-Instruct：通过统一扩散散度指令实现的一步式扩散模型

Uni-Instruct：通过统一扩散散度指令实现的一步式扩散模型

ZeroSep：零训练分离音频中的任意内容

ZeroSep：零训练分离音频中的任意内容

一次性熵最小化

Re-ttention：通过注意力统计重塑实现的超稀疏视觉生成

Re-ttention：通过注意力统计重塑实现的超稀疏视觉生成

Afterburner: 强化学习促进自我改进的代码效率优化

Afterburner: 强化学习促进自我改进的代码效率优化

ATI：可控视频生成的任意轨迹指令

CXReasonBench：一个用于评估胸部X光片中结构化诊断推理的基准

CXReasonBench：一个用于评估胸部X光片中结构化诊断推理的基准

当模型用您的语言进行推理时：控制思维轨迹语言会牺牲准确性

当模型用您的语言进行推理时：控制思维轨迹语言会牺牲准确性

是否信任你的视觉语言模型的预测

是否信任你的视觉语言模型的预测

UniTEX：用于 3D 形状的通用高保真生成纹理

UniTEX：用于 3D 形状的通用高保真生成纹理

CLIPGaussian：基于高斯泼溅的通用多模态风格迁移

简洁推理，巨大收益：通过难度感知提示剪除冗长推理过程

简洁推理，巨大收益：通过难度感知提示剪除冗长推理过程

被谜题困扰：当视觉-语言模型无法领会提示时

被谜题困扰：当视觉-语言模型无法领会提示时

LLM能欺骗CLIP吗？通过文本更新基准测试预训练多模态表示的对抗性组合性

LLM能欺骗CLIP吗？通过文本更新基准测试预训练多模态表示的对抗性组合性

ChartLens：图表中的细粒度视觉归因

ChartLens：图表中的细粒度视觉归因

一种探究大型语言模型中知识结构模式的图视角

一种探究大型语言模型中知识结构模式的图视角

SridBench：图像生成模型科学研究插图绘制评测

SridBench：图像生成模型科学研究插图绘制评测

Lunguage：结构化和序列化胸片判读的基准

Lunguage：结构化和序列化胸片判读的基准

动物如何跳舞 (在你没看的时候)

ZPressor：可扩展前馈 3DGS 的瓶颈感知压缩

评估跨不同领域的文本创造力：一个数据集和大型语言模型评估器

评估跨不同领域的文本创造力：一个数据集和大型语言模型评估器

差分信息：一个关于偏好优化的信息论视角

差分信息：一个关于偏好优化的信息论视角

接地式强化学习用于视觉推理

TokBench：在视觉生成前评估您的视觉分词器

TokBench：在视觉生成前评估您的视觉分词器

MMSI-Bench：多图像空间智能基准

MMSI-Bench：多图像空间智能基准

GSO：评估SWE-Agents的挑战性软件优化任务

GSO：评估SWE-Agents的挑战性软件优化任务

模型保持自适应舍入

通过动态低置信度遮罩实现自适应无分类器引导

通过动态低置信度遮罩实现自适应无分类器引导

从标注者(不)一致性视角看机器翻译的无监督词级质量评估

从标注者(不)一致性视角看机器翻译的无监督词级质量评估

大语言模型与知识图谱用于问答：综述与机遇

大语言模型与知识图谱用于问答：综述与机遇

迈向可靠的生物医学假说生成：评估大型语言模型的真实性与幻觉

迈向可靠的生物医学假说生成：评估大型语言模型的真实性与幻觉