每日论文

rStar2-Agent：Agentic推理技术报告

rStar2-Agent：Agentic推理技术报告

Pref-GRPO：基于成对偏好奖励的GRPO，用于稳定的文本到图像强化学习

Pref-GRPO：基于成对偏好奖励的GRPO，用于稳定的文本到图像强化学习

MCP-Bench：通过MCP服务器对使用工具的LLM Agent进行复杂现实世界任务的基准测试

MCP-Bench：通过MCP服务器对使用工具的LLM Agent进行复杂现实世界任务的基准测试

USO：通过解耦和奖励学习实现统一风格和主题驱动的生成

USO：通过解耦和奖励学习实现统一风格和主题驱动的生成

AWorld：为智能体AI编排训练配方

AWorld：为智能体AI编排训练配方

长视频生成的上下文混合

TCIA：面向指令微调的任务中心指令增强方法

TCIA：面向指令微调的任务中心指令增强方法

多视角三维点跟踪

扭转咒语：通过秩一安全注入实现轻量级对齐放大

扭转咒语：通过秩一安全注入实现轻量级对齐放大

OneReward：通过多任务人类偏好学习实现统一的蒙版引导图像生成

OneReward：通过多任务人类偏好学习实现统一的蒙版引导图像生成

大型语言模型工具内学习的可证明优势

大型语言模型工具内学习的可证明优势

CogVLA：通过指令驱动的路由与稀疏化实现认知对齐的视觉-语言-动作模型

CogVLA：通过指令驱动的路由与稀疏化实现认知对齐的视觉-语言-动作模型

大型语言模型中的说服动力学：使用 DuET-PD 研究知识和安全性中的鲁棒性和适应性

大型语言模型中的说服动力学：使用 DuET-PD 研究知识和安全性中的鲁棒性和适应性

ROSE：移除视频中的附带副作用对象

ROSE：移除视频中的附带副作用对象

FakeParts：一种新的人工智能生成深度伪造（DeepFake）系列

FakeParts：一种新的人工智能生成深度伪造（DeepFake）系列

Dress&Dance：随心所欲地换装和跳舞 - 技术预览

Dress&Dance：随心所欲地换装和跳舞 - 技术预览

面向高质量3D生成的协同多模态编码

面向高质量3D生成的协同多模态编码

OnGoal：在多轮对话中跟踪和可视化对话目标（通过大型语言模型）

OnGoal：在多轮对话中跟踪和可视化对话目标（通过大型语言模型）

Social-MAE：一种基于 Transformer 的多模态自编码器，用于人脸和声音

Social-MAE：一种基于 Transformer 的多模态自编码器，用于人脸和声音