每日论文

每一次关注都至关重要：一种用于长上下文推理的高效混合架构

每一次关注都至关重要：一种用于长上下文推理的高效混合架构

BAPO：通过自适应剪裁的平衡策略优化，稳定 LLM 的离策略强化学习

BAPO：通过自适应剪裁的平衡策略优化，稳定 LLM 的离策略强化学习

LoongRL：用于长上下文高级推理的强化学习

LoongRL：用于长上下文高级推理的强化学习

GigaBrain-0：一个由世界模型驱动的视觉-语言-动作模型

GigaBrain-0：一个由世界模型驱动的视觉-语言-动作模型

语言模型是单射的，因此是可逆的

语言模型是单射的，因此是可逆的

VideoAgentTrek：从无标签视频中进行计算机使用预训练

VideoAgentTrek：从无标签视频中进行计算机使用预训练

视觉-语言模型的统一强化学习和模仿学习

DaMo：用于手机代理微调多模态 LLM 的数据混合优化器

DaMo：用于手机代理微调多模态 LLM 的数据混合优化器

扩散语言模型中的注意力汇聚

Pico-Banana-400K：一个用于文本引导图像编辑的大规模数据集

Pico-Banana-400K：一个用于文本引导图像编辑的大规模数据集

FinSight：迈向真实世界的金融深度研究

FinSight：迈向真实世界的金融深度研究

olmOCR 2：文档 OCR 的单元测试奖励

olmOCR 2：文档 OCR 的单元测试奖励

定向推理注入以微调 MLLM

他们是恋人还是朋友？评估 LLM 在英语和韩语对话中的社会推理能力

他们是恋人还是朋友？评估 LLM 在英语和韩语对话中的社会推理能力

KORE：通过面向知识的增强和约束增强大型多模态模型的知识注入

KORE：通过面向知识的增强和约束增强大型多模态模型的知识注入

OmniNWM：全知驾驶导航世界模型

面向训练无关视频推理分割的多模态大语言模型中分解注意力融合

面向训练无关视频推理分割的多模态大语言模型中分解注意力融合

从图表到代码：多模态模型的层次基准

从图表到代码：多模态模型的层次基准

ColorAgent：构建一个稳健、个性化、交互式的操作系统代理

ColorAgent：构建一个稳健、个性化、交互式的操作系统代理

TheMCPCompany：使用任务专用工具创建通用代理

TheMCPCompany：使用任务专用工具创建通用代理

MINED：利用多模态时效知识探测和更新大型多模态模型

MINED：利用多模态时效知识探测和更新大型多模态模型

NeuroAda：激活每个神经元的潜力，实现参数高效微调

NeuroAda：激活每个神经元的潜力，实现参数高效微调

AlphaOPT：利用自改进型 LLM 经验库制定优化程序

AlphaOPT：利用自改进型 LLM 经验库制定优化程序

向最优秀者学习，以不同的方式：数据选择中多样性驱动的再思考

向最优秀者学习，以不同的方式：数据选择中多样性驱动的再思考

Transformer 何时学习图连通性的启发式算法？

Transformer 何时学习图连通性的启发式算法？

ProfBench：需要专业知识才能回答和判断的多领域评分标准

ProfBench：需要专业知识才能回答和判断的多领域评分标准

RIR-Mega：一个用于机器学习和房间声学建模的大规模模拟房间脉冲响应数据集

RIR-Mega：一个用于机器学习和房间声学建模的大规模模拟房间脉冲响应数据集

看文本：从分词到视觉阅读

机器文本检测器是成员推断攻击

DeLeaker：用于缓解文本到图像模型中语义泄漏的动态推理时重加权

DeLeaker：用于缓解文本到图像模型中语义泄漏的动态推理时重加权

机器人应该能够回答哪些问题？一个面向可解释性机器人学的用户问题数据集

机器人应该能够回答哪些问题？一个面向可解释性机器人学的用户问题数据集

用递归特征机引导自回归音乐生成