微调

GaLore：通过梯度低秩投影实现内存高效的LLM训练

GaLore：通过梯度低秩投影实现内存高效的LLM训练

PaliGemma 2：用于迁移的多功能VLM系列

PaliGemma 2：用于迁移的多功能VLM系列

Seaweed-7B：视频生成基础模型的经济高效训练

Seaweed-7B：视频生成基础模型的经济高效训练

SingLoRA：使用单个矩阵的低秩适应

SingLoRA：使用单个矩阵的低秩适应

ScreenCoder：通过模块化多模态智能体推进前端自动化的视觉代码生成

ScreenCoder：通过模块化多模态智能体推进前端自动化的视觉代码生成

Alchemist: 将公共文本到图像数据转化为生成式黄金

Alchemist: 将公共文本到图像数据转化为生成式黄金

从编辑器到密集几何估计器

SageAttention3：微缩放 FP4 注意力用于推理以及对 8 比特训练的探索

SageAttention3：微缩放 FP4 注意力用于推理以及对 8 比特训练的探索

ReTool：用于LLM中战略工具使用的强化学习

ReTool：用于LLM中战略工具使用的强化学习

ARC-混元-视频-7B：真实世界短视频的结构化视频理解

ARC-混元-视频-7B：真实世界短视频的结构化视频理解

在推理模型中从同伴学习

视觉-语言-视觉自编码器：从扩散模型中进行可扩展的知识蒸馏

视觉-语言-视觉自编码器：从扩散模型中进行可扩展的知识蒸馏

PixelHacker：结构和语义一致性的图像修复

PixelHacker：结构和语义一致性的图像修复

SpatialLM: 训练大语言模型进行结构化室内建模

视频扩散模型的时序上下文微调：实现通用控制

Easy Dataset：一个用于从非结构化文档中合成LLM微调数据的统一且可扩展的框架

aMUSEd：开源MUSE复现

aMUSEd：开源MUSE复现

LightLab：使用扩散模型控制图像中的光源

LightLab：使用扩散模型控制图像中的光源

RLVER: 具有可验证情感奖励的强化学习，用于共情智能体

RLVER: 具有可验证情感奖励的强化学习，用于共情智能体

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct 技术报告

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct 技术报告

REFINE-AF：一个通过使用来自自动化反馈的强化学习自生成指令来对齐语言模型的任务无关框架

REFINE-AF：一个通过使用来自自动化反馈的强化学习自生成指令来对齐语言模型的任务无关框架

通过强化学习实现高效医学 VIE

STream3R: 使用因果变换器进行可扩展的序列三维重建

STream3R: 使用因果变换器进行可扩展的序列三维重建

用于语言模型对齐的自博弈偏好优化

用于语言模型对齐的自博弈偏好优化

Jigsaw-R1：基于拼图的规则化视觉强化学习研究

Jigsaw-R1：基于拼图的规则化视觉强化学习研究

当今的大型语言模型准备好解释幸福概念了吗？

当今的大型语言模型准备好解释幸福概念了吗？

AerialMegaDepth：学习空中-地面重建和视图合成

扩展模态是通向全模态的正确道路吗？

扩展模态是通向全模态的正确道路吗？

大型语言模型是贪婪的智能体：强化学习微调对决策能力的影响

大型语言模型是贪婪的智能体：强化学习微调对决策能力的影响

SWE-Flow: 以测试驱动方式合成软件工程数据

SWE-Flow: 以测试驱动方式合成软件工程数据

OmniEAR：对具身任务中代理推理能力的基准测试

OmniEAR：对具身任务中代理推理能力的基准测试

QFFT：用于自适应推理的无问微调

QFFT：用于自适应推理的无问微调

OmniTry：无需蒙版的万物虚拟试穿

OmniTry：无需蒙版的万物虚拟试穿

BUT 系统参加 MLC-SLM 挑战赛

BUT 系统参加 MLC-SLM 挑战赛

LLM推理的极简主义方法：从拒绝采样到强化学习

LLM推理的极简主义方法：从拒绝采样到强化学习

在开源 LLM 上微调时要小心：你的微调数据可能被秘密窃取！

在开源 LLM 上微调时要小心：你的微调数据可能被秘密窃取！

MedGemma 技术报告

CS-Sum：语码转换对话摘要的基准以及大型语言模型的局限性

CS-Sum：语码转换对话摘要的基准以及大型语言模型的局限性

EasyText：用于多语言文本渲染的可控扩散Transformer

EasyText：用于多语言文本渲染的可控扩散Transformer

从多模态基础模型中的动力学模型自举世界模型

从多模态基础模型中的动力学模型自举世界模型

多token预测需要寄存器

帮助还是驱赶？奖励模型集成缓解但不能消除奖励黑客行为

帮助还是驱赶？奖励模型集成缓解但不能消除奖励黑客行为

DRAGON：分布奖励优化扩散生成模型

Speechless：适用于低资源语言的无需语音的语音指令训练

Speechless：适用于低资源语言的无需语音的语音指令训练

ConfQA: 只有在你自信时才回答

ConfQA: 只有在你自信时才回答

迷失在混合中：评估大型语言模型对语码转换文本的理解

迷失在混合中：评估大型语言模型对语码转换文本的理解

评估、合成和增强客户支持对话

思想操纵：外部的思考可以高效地用于大型推理模型

思想操纵：外部的思考可以高效地用于大型推理模型

请注意！重新审视用于掩码图像建模的注意力探查

请注意！重新审视用于掩码图像建模的注意力探查

预训练语言模型用于历时语言变化发现

预训练语言模型用于历时语言变化发现

MedCaseReasoning: 从临床病例报告中评估和学习诊断推理

MedCaseReasoning: 从临床病例报告中评估和学习诊断推理

通过 Mirror Prox 加速来自人类反馈的纳什学习

通过 Mirror Prox 加速来自人类反馈的纳什学习

InteractVLM：来自2D基础模型的3D交互推理

InteractVLM：来自2D基础模型的3D交互推理

蒸馏用于自回归图像生成的语义感知序列

蒸馏用于自回归图像生成的语义感知序列

就像人类需要疫苗，模型也需要：模型免疫以对抗谬误

就像人类需要疫苗，模型也需要：模型免疫以对抗谬误

实现灵活的多大语言模型集成用于可扩展的知识聚合

实现灵活的多大语言模型集成用于可扩展的知识聚合

微调SLM还是提示LLM？以生成低代码工作流为例

微调SLM还是提示LLM？以生成低代码工作流为例

Infinity Instruct：规模化指令选择与合成以增强语言模型

Infinity Instruct：规模化指令选择与合成以增强语言模型

RuOpinionNE-2024：从俄语新闻文本中提取意见元组

RuOpinionNE-2024：从俄语新闻文本中提取意见元组

一种探究大型语言模型中知识结构模式的图视角

一种探究大型语言模型中知识结构模式的图视角

RKEFino1: 法规知识增强型大语言模型

RKEFino1: 法规知识增强型大语言模型

用于微调视频扩散模型的跨帧表征对齐

用于微调视频扩散模型的跨帧表征对齐

EMLoC：基于模拟器的内存高效微调，结合 LoRA 校正

EMLoC：基于模拟器的内存高效微调，结合 LoRA 校正

生物医学富集：一个由大语言模型（LLMs）增强的生物医学数据集，用于预训练和提取稀有和隐藏内容

生物医学富集：一个由大语言模型（LLMs）增强的生物医学数据集，用于预训练和提取稀有和隐藏内容

AutoLibra：基于开放式反馈的智能体指标归纳

AutoLibra：基于开放式反馈的智能体指标归纳

揭示指令特异性神经元与专家：LLM指令遵循能力的分析框架

揭示指令特异性神经元与专家：LLM指令遵循能力的分析框架

GuideX: 引导式合成数据生成，用于零样本信息抽取

GuideX: 引导式合成数据生成，用于零样本信息抽取

寻宝：利用训练时标记实时定位长尾

寻宝：利用训练时标记实时定位长尾

TAGS：一个具有检索增强推理和验证的测试时通用-专家框架

TAGS：一个具有检索增强推理和验证的测试时通用-专家框架

InstructPart：面向任务的部分分割与指令推理

InstructPart：面向任务的部分分割与指令推理

分心效应：理解 RAG 中的不相关段落

分心效应：理解 RAG 中的不相关段落

使用 MIDI-RWKV 实现可个性化的长上下文符号音乐填充

使用 MIDI-RWKV 实现可个性化的长上下文符号音乐填充

RotBench：评估多模态大型语言模型识别图像旋转的能力

RotBench：评估多模态大型语言模型识别图像旋转的能力

ParaStudent：通过教LLM努力挣扎来生成和评估真实的学⽣代码

ParaStudent：通过教LLM努力挣扎来生成和评估真实的学⽣代码