每日论文

反馈摩擦：LLMs 难以充分吸收外部反馈

反馈摩擦：LLMs 难以充分吸收外部反馈

有效红队测试策略遵守型智能体

有效红队测试策略遵守型智能体

扩散对偶性

通过跨模态注意力注入对齐的新视角图像与几何合成

通过跨模态注意力注入对齐的新视角图像与几何合成

LiveCodeBench Pro: 奥林匹克奖牌得主如何在竞技编程中评判大型语言模型？

LiveCodeBench Pro: 奥林匹克奖牌得主如何在竞技编程中评判大型语言模型？

ViCrit：一个用于视觉语言模型（VLM）中视觉感知的可验证强化学习代理任务

ViCrit：一个用于视觉语言模型（VLM）中视觉感知的可验证强化学习代理任务

超越同质注意力：通过傅里叶近似的KV缓存实现内存高效的LLM

超越同质注意力：通过傅里叶近似的KV缓存实现内存高效的LLM

Med-PRM：一种带有逐步、指南验证过程奖励的医疗推理模型

Med-PRM：一种带有逐步、指南验证过程奖励的医疗推理模型

SwS：强化学习中用于LLM推理的自我感知弱点驱动问题合成

SwS：强化学习中用于LLM推理的自我感知弱点驱动问题合成

DeepVideo-R1：通过难度感知回归式GRPO进行视频强化微调

DeepVideo-R1：通过难度感知回归式GRPO进行视频强化微调

JAFAR：在任何分辨率下提升任何特征

JAFAR：在任何分辨率下提升任何特征

pLSTM：可并行化线性源转换标记网络

pLSTM：可并行化线性源转换标记网络

LoRA-Edit：通过掩码感知LoRA微调实现可控的首帧引导视频编辑

别理会

SkillBlender: 通过技能融合迈向多功能人形机器人全身运动与操作

SkillBlender: 通过技能融合迈向多功能人形机器人全身运动与操作

针对交错图像-文本生成的高质量数据集和可靠评估

针对交错图像-文本生成的高质量数据集和可靠评估

AbstentionBench：推理大型语言模型在无解问题上失败

AbstentionBench：推理大型语言模型在无解问题上失败

密集检索器在简单查询上可能失效：揭示嵌入的粒度困境

密集检索器在简单查询上可能失效：揭示嵌入的粒度困境

一个利用TTS合成数据增强ASR的自精炼框架

一个利用TTS合成数据增强ASR的自精炼框架

学习一个持续思考令牌以增强测试时扩展性

学习一个持续思考令牌以增强测试时扩展性

解耦理解与引导式思维链推理的有害模因检测方法

解耦理解与引导式思维链推理的有害模因检测方法

Infinity Instruct：规模化指令选择与合成以增强语言模型

Infinity Instruct：规模化指令选择与合成以增强语言模型

Mirage-1: 通过分层多模态技能增强和更新图形界面智能体

Mirage-1: 通过分层多模态技能增强和更新图形界面智能体

视觉Transformer的固有忠实注意力图

视觉Transformer的固有忠实注意力图

先提示候选，再蒸馏：一个用于LLM驱动数据标注的师生框架

先提示候选，再蒸馏：一个用于LLM驱动数据标注的师生框架

奖励模型通过牺牲准确性换取吞吐量，从而实现可扩展的代码验证

奖励模型通过牺牲准确性换取吞吐量，从而实现可扩展的代码验证

基于评分标准引导的合成数据进行可配置的偏好微调

基于评分标准引导的合成数据进行可配置的偏好微调