每日论文

用于语言模型的模型链学习

AdaptThink：推理模型可以学习何时思考

AdaptThink：推理模型可以学习何时思考

AdaCoT：基于强化学习的帕累托最优自适应思维链触发

AdaCoT：基于强化学习的帕累托最优自适应思维链触发

Thinkless：大语言模型学习何时思考

Thinkless：大语言模型学习何时思考

Delta Attention: 通过Delta修正实现快速准确的稀疏注意力推理

Delta Attention: 通过Delta修正实现快速准确的稀疏注意力推理

通过用户界面分解与合成实现计算机使用基础化的规模扩展

通过用户界面分解与合成实现计算机使用基础化的规模扩展

利用可训练稀疏注意力实现更快的视频扩散

利用可训练稀疏注意力实现更快的视频扩散

大型语言模型预训练中的模型合并

大型语言模型预训练中的模型合并

透过镜子：对怪异图像的常识一致性评估

透过镜子：对怪异图像的常识一致性评估

用于快速动态场景表示的混合 3D-4D 高斯泼溅

用于快速动态场景表示的混合 3D-4D 高斯泼溅

黑暗中探索：基于测试时实例级策略梯度在潜在空间中的推理

黑暗中探索：基于测试时实例级策略梯度在潜在空间中的推理

MM-PRM: 通过可扩展的步骤级监督增强多模态数学推理能力

MM-PRM: 通过可扩展的步骤级监督增强多模态数学推理能力

CPGD: 迈向用于语言模型的稳定基于规则强化学习

CPGD: 迈向用于语言模型的稳定基于规则强化学习

FedSVD: 结合LoRA用于隐私联邦学习的自适应正交化

FedSVD: 结合LoRA用于隐私联邦学习的自适应正交化

EfficientLLM: 大语言模型中的效率

EfficientLLM: 大语言模型中的效率

断裂思维链推理

SEED-GRPO：语义熵增强的 GRPO 用于不确定性感知的策略优化

SEED-GRPO：语义熵增强的 GRPO 用于不确定性感知的策略优化

VisionReasoner：通过强化学习实现的统一视觉感知与推理

VisionReasoner：通过强化学习实现的统一视觉感知与推理

神经符号查询编译器

ChartMuseum: 测试大型视觉-语言模型的视觉推理能力

ChartMuseum: 测试大型视觉-语言模型的视觉推理能力

ViPlan：基于符号谓词和视觉语言模型的视觉规划基准

ViPlan：基于符号谓词和视觉语言模型的视觉规划基准

R3: 鲁棒的评分标准无关奖励模型

R3: 鲁棒的评分标准无关奖励模型

当AI合作科学家失败时：SPOT——一个用于科学研究自动化验证的基准

当AI合作科学家失败时：SPOT——一个用于科学研究自动化验证的基准

基于连续潜在空间能量距离的高效语音语言建模

基于连续潜在空间能量距离的高效语音语言建模

MTVCrafter：用于开放世界人体图像动画的4D运动标记化

MTVCrafter：用于开放世界人体图像动画的4D运动标记化

基于 GS-Jacobi 迭代加速 TarFlow 采样

基于 GS-Jacobi 迭代加速 TarFlow 采样

微小问答基准++：用于持续LLM评估的超轻量级合成多语言数据集生成与冒烟测试

微小问答基准++：用于持续LLM评估的超轻量级合成多语言数据集生成与冒烟测试

MedCaseReasoning: 从临床病例报告中评估和学习诊断推理

MedCaseReasoning: 从临床病例报告中评估和学习诊断推理

FinePhys: 通过显式融入物理定律实现细粒度人体动作生成，用于有效的骨骼引导

FinePhys: 通过显式融入物理定律实现细粒度人体动作生成，用于有效的骨骼引导

SoftCoT++：结合软思维链推理的测试时扩展

SoftCoT++：结合软思维链推理的测试时扩展

QVGen：突破量化视频生成模型的极限

QVGen：突破量化视频生成模型的极限

ExTrans：基于范例增强强化学习的多语言深度推理翻译

ExTrans：基于范例增强强化学习的多语言深度推理翻译

HISTAI：一个用于计算病理学的开源、大规模全玻片图像数据集

HISTAI：一个用于计算病理学的开源、大规模全玻片图像数据集

HelpSteer3-Preference：跨不同任务和语言的开放人工标注偏好数据

HelpSteer3-Preference：跨不同任务和语言的开放人工标注偏好数据

基于计算机使用构建通用用户模型

基于计算机使用构建通用用户模型

TechniqueRAG：用于网络威胁情报文本中对抗技术标注的检索增强生成

TechniqueRAG：用于网络威胁情报文本中对抗技术标注的检索增强生成

从咕哝到语法：合作觅食中涌现的语言

从咕哝到语法：合作觅食中涌现的语言

使用未配对数据的学习型轻量级智能手机ISP

使用未配对数据的学习型轻量级智能手机ISP

一个Token价值超过1,000个Token: 通过低秩克隆实现高效知识蒸馏

一个Token价值超过1,000个Token: 通过低秩克隆实现高效知识蒸馏

用于化学式多模态验证的大语言模型上下文条件化与 PWP 提示

用于化学式多模态验证的大语言模型上下文条件化与 PWP 提示

通过持久工作流提示、元提示和元推理实现的AI驱动的学术同行评审

通过持久工作流提示、元提示和元推理实现的AI驱动的学术同行评审

快而简单：基于丰富数据和规则模型重新思考 G2P

快而简单：基于丰富数据和规则模型重新思考 G2P

AI自由职业者能竞争吗？：规模化基准测试收入、可靠性和任务成功

AI自由职业者能竞争吗？：规模化基准测试收入、可靠性和任务成功