每日论文

强化预训练

强化预训练

灵枢：面向统一多模态医学理解与推理的通用基础模型

灵枢：面向统一多模态医学理解与推理的通用基础模型

MiniCPM4: 终端设备上的超高效大语言模型

Saffron-1: 迈向大语言模型安全保障的推理扩展范式

Saffron-1: 迈向大语言模型安全保障的推理扩展范式

OneIG-Bench: 面向图像生成的全维度细致评估

OneIG-Bench: 面向图像生成的全维度细致评估

SpatialLM: 训练大语言模型进行结构化室内建模

图像重建：一种特征分析工具

Astra: 迈向通用移动机器人：通过分层多模态学习

预训练大语言模型在语境中学习隐马尔可夫模型

预训练大语言模型在语境中学习隐马尔可夫模型

视觉Transformer不需要训练寄存器

视觉Transformer不需要训练寄存器

穿越山谷：小型语言模型长CoT（思维链）高效训练之路

穿越山谷：小型语言模型长CoT（思维链）高效训练之路

BitVLA：用于机器人操作的1比特视觉-语言-动作模型

BitVLA：用于机器人操作的1比特视觉-语言-动作模型

重新思考多模态扩散Transformer中的跨模态交互

重新思考多模态扩散Transformer中的跨模态交互

有争议的智能：通过辩论言语评估对LLM评判器进行基准测试

有争议的智能：通过辩论言语评估对LLM评判器进行基准测试

游戏促泛化：通过游戏学习推理

GTR-CoT: 将图遍历作为分子结构识别的视觉思维链

GTR-CoT: 将图遍历作为分子结构识别的视觉思维链

从多模态基础模型中的动力学模型自举世界模型

从多模态基础模型中的动力学模型自举世界模型

思维的幻觉：通过问题复杂性视角理解推理模型的优势与局限

思维的幻觉：通过问题复杂性视角理解推理模型的优势与局限

CCI4.0: 用于增强大语言模型推理能力的双语预训练数据集

CCI4.0: 用于增强大语言模型推理能力的双语预训练数据集

ConfQA: 只有在你自信时才回答

ConfQA: 只有在你自信时才回答

ExpertLongBench：通过结构化核对表评估语言模型在专家级长篇生成任务上的表现

ExpertLongBench：通过结构化核对表评估语言模型在专家级长篇生成任务上的表现

从条件数角度看模型免疫

GUI-Reflection：赋能多模态GUI模型以自反思能力

GUI-Reflection：赋能多模态GUI模型以自反思能力

良好的开端是成功的一半：通过弱到强解码实现低资源偏好对齐

良好的开端是成功的一半：通过弱到强解码实现低资源偏好对齐

Dreamland: 使用模拟器和生成模型进行可控世界创造

Dreamland: 使用模拟器和生成模型进行可控世界创造

SynthesizeMe! 在大型语言模型中引入角色引导提示以实现个性化奖励模型

SynthesizeMe! 在大型语言模型中引入角色引导提示以实现个性化奖励模型

变革的智能体：用于战略规划的自演进LLM智能体

变革的智能体：用于战略规划的自演进LLM智能体

SAFEFLOW：面向可信和事务性自主智能体系统的原则性协议

SAFEFLOW：面向可信和事务性自主智能体系统的原则性协议

Cartridges: 通过自学实现轻量级通用长上下文表示

Cartridges: 通过自学实现轻量级通用长上下文表示

所见无法“未见”：知识冲突对大型语言模型的破坏性影响

所见无法“未见”：知识冲突对大型语言模型的破坏性影响

动态视图合成作为一个逆问题

大语言模型推理超频：监测和控制大语言模型中的思维路径长度

PolyVivid：通过跨模态交互和增强生成生动多主题视频

PolyVivid：通过跨模态交互和增强生成生动多主题视频

CyberV：视频理解中的测试时扩展控制论

CyberV：视频理解中的测试时扩展控制论

用于机器人学习的自适应改进循环

用于机器人学习的自适应改进循环

τ^2-Bench：在双重控制环境下评估对话式智能体

τ^2-Bench：在双重控制环境下评估对话式智能体

GeometryZero: 通过群组对比策略优化改进大语言模型的几何解题能力

GeometryZero: 通过群组对比策略优化改进大语言模型的几何解题能力

学习强化学习无法做到的：针对最难问题的交错在线微调

学习强化学习无法做到的：针对最难问题的交错在线微调

通过概念感知微调改进大型语言模型

通过概念感知微调改进大型语言模型

隐藏在显眼处：探究多模态语言模型中的隐式推理

隐藏在显眼处：探究多模态语言模型中的隐式推理

NetPress: 针对网络应用的动态生成 LLM 评测基准

NetPress: 针对网络应用的动态生成 LLM 评测基准

通过动态目标边距实现鲁棒偏好优化

通过动态目标边距实现鲁棒偏好优化

MegaHan97K: 一个包含超过9.7万个类别的超大类汉字识别数据集

MegaHan97K: 一个包含超过9.7万个类别的超大类汉字识别数据集

EVOREFUSE：用于评估和缓解大型语言模型对伪恶意指令过度拒绝的演化式提示优化

EVOREFUSE：用于评估和缓解大型语言模型对伪恶意指令过度拒绝的演化式提示优化

从流式第一人称视角视频生成主动式助手对话

从流式第一人称视角视频生成主动式助手对话

使用代理模型评估LLM在资源匮乏语言中的鲁棒性

使用代理模型评估LLM在资源匮乏语言中的鲁棒性

元适应提示蒸馏用于少样本视觉问答

元适应提示蒸馏用于少样本视觉问答

基于正交匹配追踪的免训练分词器移植

基于正交匹配追踪的免训练分词器移植