每日论文

TabSTAR：一个具有语义目标感知表示的基础表格模型

TabSTAR：一个具有语义目标感知表示的基础表格模型

QwenLong-L1：迈向基于强化学习的长上下文大型推理模型

QwenLong-L1：迈向基于强化学习的长上下文大型推理模型

利用检索和代码工具将LLM智能体蒸馏到小模型

利用检索和代码工具将LLM智能体蒸馏到小模型

Quartet: 对于大型语言模型，原生的 FP4 训练可以是最佳的

Quartet: 对于大型语言模型，原生的 FP4 训练可以是最佳的

推理模型很顽固: 诊断推理模型中的指令覆盖

推理模型很顽固: 诊断推理模型中的指令覆盖

视觉三元统一强化学习：一种强化学习看遍所有

视觉三元统一强化学习：一种强化学习看遍所有

PhyX: 你的模型是否具备物理推理的“智慧”？

PhyX: 你的模型是否具备物理推理的“智慧”？

QwenLong-CPRS: 迈向具有动态上下文优化的无限长LLM

QwenLong-CPRS: 迈向具有动态上下文优化的无限长LLM

规模化图像和视频生成：通过测试时演化搜索

规模化图像和视频生成：通过测试时演化搜索

模型早已知道最佳噪声：视频扩散模型中基于注意力机制的贝叶斯主动噪声选择

模型早已知道最佳噪声：视频扩散模型中基于注意力机制的贝叶斯主动噪声选择

MOOSE-Chem3：迈向实验引导的假说排序，通过模拟实验反馈

MOOSE-Chem3：迈向实验引导的假说排序，通过模拟实验反馈

VeriThinker：学习验证让推理模型更高效

VeriThinker：学习验证让推理模型更高效

扩散分类器理解组合性，但有条件限制

扩散分类器理解组合性，但有条件限制

AudioTrust：评估音频大型语言模型的多方面可信度

AudioTrust：评估音频大型语言模型的多方面可信度

Direct3D-S2：利用空间稀疏注意力轻松实现超大规模三维生成

Direct3D-S2：利用空间稀疏注意力轻松实现超大规模三维生成

位置不确定性：大型语言模型中位置偏差的跨语言研究

位置不确定性：大型语言模型中位置偏差的跨语言研究

s3: 通过强化学习训练一个搜索智能体，你不需要那么多数据

s3: 通过强化学习训练一个搜索智能体，你不需要那么多数据

教学中的谎言: 基于合成负样本的课程DPO用于幻觉检测

教学中的谎言: 基于合成负样本的课程DPO用于幻觉检测

思想增强策略优化：弥合外部指导与内部能力之间的差距

思想增强策略优化：弥合外部指导与内部能力之间的差距

Time-R1: 迈向大语言模型中的全面时间推理

Time-R1: 迈向大语言模型中的全面时间推理

FullFront：贯穿完整前端工程工作流程的 MLLMs 基准测试

FullFront：贯穿完整前端工程工作流程的 MLLMs 基准测试

Speechless：适用于低资源语言的无需语音的语音指令训练

Speechless：适用于低资源语言的无需语音的语音指令训练

晴朗的夜晚就在前方：迈向多天气夜间图像恢复

晴朗的夜晚就在前方：迈向多天气夜间图像恢复

通过合成任务和强化学习教会大型语言模型保持上下文忠实性

通过合成任务和强化学习教会大型语言模型保持上下文忠实性

合成数据 RL：任务定义就够了

合成数据 RL：任务定义就够了

RBench-V: 对具有多模态输出的视觉推理模型的初步评估

RBench-V: 对具有多模态输出的视觉推理模型的初步评估

Trinity-RFT：用于大型语言模型强化微调的通用统一框架

Trinity-RFT：用于大型语言模型强化微调的通用统一框架

ScanBot：迈向具身机器人系统中的智能表面扫描

ScanBot：迈向具身机器人系统中的智能表面扫描

视觉语言模型在现实世界中安全吗？一项基于Meme的基准研究

视觉语言模型在现实世界中安全吗？一项基于Meme的基准研究

RePrompt: 用于文本到图像生成的推理增强重复提示，通过强化学习

RePrompt: 用于文本到图像生成的推理增强重复提示，通过强化学习

Transformer Copilot：在LLM微调中从错误日志中学习

Transformer Copilot：在LLM微调中从错误日志中学习

用于视觉-语言-动作模型的交互式后训练

用于视觉-语言-动作模型的交互式后训练

DanceTogether!：保留身份的多人交互式视频生成

DanceTogether!：保留身份的多人交互式视频生成

关于用于LLM推理的KL正则化策略梯度算法的设计

关于用于LLM推理的KL正则化策略梯度算法的设计

大型语言模型仅通过阅读就能隐式学习看和听

大型语言模型仅通过阅读就能隐式学习看和听

ReflAct：通过目标状态反思实现 LLM 代理中基于世界的决策

ReflAct：通过目标状态反思实现 LLM 代理中基于世界的决策

重新审视残差连接：用于稳定高效深度网络的正交更新

重新审视残差连接：用于稳定高效深度网络的正交更新

高效思维链推理的价值引导搜索

NOVER: 通过无需验证器的强化学习对语言模型进行激励训练

NOVER: 通过无需验证器的强化学习对语言模型进行激励训练

保持安全！对大语言模型在问答中应对间接攻击时的安全策略保持情况进行基准测试

保持安全！对大语言模型在问答中应对间接攻击时的安全策略保持情况进行基准测试

并非所有模型都适合专家卸载：论专家混合模型的局部路由一致性

并非所有模型都适合专家卸载：论专家混合模型的局部路由一致性

TIME：一个用于大型语言模型在现实世界场景中进行时间推理的多层级基准

TIME：一个用于大型语言模型在现实世界场景中进行时间推理的多层级基准

增强大型语言模型推理：用于复杂问答的动态笔记写作

增强大型语言模型推理：用于复杂问答的动态笔记写作

FREESON: 基于语料库遍历 MCTS 的无检索器检索增强推理

FREESON: 基于语料库遍历 MCTS 的无检索器检索增强推理

FuxiMT：用于以中文为中心的多语言机器翻译的大型语言模型稀疏化

FuxiMT：用于以中文为中心的多语言机器翻译的大型语言模型稀疏化

NileChat: 迈向面向本地社区的具备语言多样性和文化意识的大型语言模型

NileChat: 迈向面向本地社区的具备语言多样性和文化意识的大型语言模型

用于改进的从头肽段测序的普适生物序列重排序

用于改进的从头肽段测序的普适生物序列重排序