每日论文

自主强化策略优化

自演化智能体综述：迈向人工智能超智能之路

自演化智能体综述：迈向人工智能超智能之路

ARC-混元-视频-7B：真实世界短视频的结构化视频理解

ARC-混元-视频-7B：真实世界短视频的结构化视频理解

SmallThinker：一系列为本地部署原生训练的高效大型语言模型

SmallThinker：一系列为本地部署原生训练的高效大型语言模型

Rep-MTL：释放表示级任务显著性在多任务学习中的力量

Rep-MTL：释放表示级任务显著性在多任务学习中的力量

重建四维空间智能：一项综述

几何平均策略优化

多样性增强主观问题推理

GPT-IMAGE-EDIT-1.5M：一个百万级GPT生成图像数据集

GPT-IMAGE-EDIT-1.5M：一个百万级GPT生成图像数据集

基于区域的聚类判别用于视觉表示学习

基于区域的聚类判别用于视觉表示学习

UloRL：一种超长输出强化学习方法，用于提升大型语言模型的推理能力

UloRL：一种超长输出强化学习方法，用于提升大型语言模型的推理能力

ScenePainter：通过概念关系对齐实现语义一致的永久三维场景生成

ScenePainter：通过概念关系对齐实现语义一致的永久三维场景生成

Met^2Net：一种用于复杂气象系统的解耦两阶段时空预测模型

Met^2Net：一种用于复杂气象系统的解耦两阶段时空预测模型

ForCenNet：用于文档图像矫正的前景中心网络

ForCenNet：用于文档图像矫正的前景中心网络

JAM：一个具有细粒度可控性和审美对齐的微型流式歌曲生成器

JAM：一个具有细粒度可控性和审美对齐的微型流式歌曲生成器

Music Arena：文本到音乐的实时评估

Music Arena：文本到音乐的实时评估

EDGE-GRPO：基于熵驱动的GRPO及引导式误差校正，实现优势多样性

EDGE-GRPO：基于熵驱动的GRPO及引导式误差校正，实现优势多样性

超越二元奖励：训练语言模型以推理自身的不确定性

超越二元奖励：训练语言模型以推理自身的不确定性

SAND-Math：使用大型语言模型生成新颖、有难度且实用的数学问题与答案

SAND-Math：使用大型语言模型生成新颖、有难度且实用的数学问题与答案

基于LLM的用户模拟器在对话式人工智能中的目标对齐

基于LLM的用户模拟器在对话式人工智能中的目标对齐

GenoMAS：一个通过代码驱动基因表达分析进行科学发现的多智能体框架

GenoMAS：一个通过代码驱动基因表达分析进行科学发现的多智能体框架

在 CIRCLE 中运行？LLM 代码解释器安全性的一个简单基准测试

在 CIRCLE 中运行？LLM 代码解释器安全性的一个简单基准测试