每日论文

Kuwain 1.5B：通过语言注入实现的阿拉伯语小型语言模型

Kuwain 1.5B：通过语言注入实现的阿拉伯语小型语言模型

TTRL：测试时强化学习

从 2,000+ 多语言基准中学到的惨痛教训

从 2,000+ 多语言基准中学到的惨痛教训

描述万物：详细的局部图像与视频描述

使用语言模型学习自适应并行推理

使用语言模型学习自适应并行推理

LiveCC：大规模使用流式语音转录学习视频大型语言模型

BookWorld：从小说到交互式智能体社会，用于创意故事生成

BookWorld：从小说到交互式智能体社会，用于创意故事生成

IV-Bench：多模态大型语言模型中的基于图像的视频感知与推理基准

IV-Bench：多模态大型语言模型中的基于图像的视频感知与推理基准

大型语言模型是贪婪的智能体：强化学习微调对决策能力的影响

大型语言模型是贪婪的智能体：强化学习微调对决策能力的影响

高效的预训练长度缩放

WALL-E 2.0：通过神经符号学习进行世界对齐改进基于世界模型的大型语言模型智能体

WALL-E 2.0：通过神经符号学习进行世界对齐改进基于世界模型的大型语言模型智能体

基于自回归模型的个性化文本到图像生成

基于自回归模型的个性化文本到图像生成

CheXWorld：探索用于放射影像表征学习的图像世界建模

CheXWorld：探索用于放射影像表征学习的图像世界建模

从反思到完善：通过反射调优扩展文本到图像扩散模型的推理时优化

从反思到完善：通过反射调优扩展文本到图像扩散模型的推理时优化

Vidi：用于视频理解与编辑的大型多模态模型

Vidi：用于视频理解与编辑的大型多模态模型

RealisDance-DiT：迈向实际环境中可控角色动画的简单而强大基线

RealisDance-DiT：迈向实际环境中可控角色动画的简单而强大基线

Progent：大型语言模型智能体的可编程权限控制

Progent：大型语言模型智能体的可编程权限控制

MR. Video："MapReduce" 是长视频理解的关键原则

MR. Video："MapReduce" 是长视频理解的关键原则

CAPTURe：通过遮挡对象计数评估视觉语言模型中的空间推理

CAPTURe：通过遮挡对象计数评估视觉语言模型中的空间推理

IPBench：大型语言模型知识产权知识基准测试

IPBench：大型语言模型知识产权知识基准测试

DiffVox：用于捕获和分析专业效果分布的可微模型

DiffVox：用于捕获和分析专业效果分布的可微模型