AI论文精选
微调
⏶
189
GaLore:通过梯度低秩投影实现内存高效的LLM训练
⏶
135
PaliGemma 2:用于迁移的多功能VLM系列
⏶
122
Seaweed-7B:视频生成基础模型的经济高效训练
⏶
100
SingLoRA:使用单个矩阵的低秩适应
⏶
74
Alchemist: 将公共文本到图像数据转化为生成式黄金
⏶
70
SageAttention3:微缩放 FP4 注意力用于推理以及对 8 比特训练的探索
⏶
60
ReTool:用于LLM中战略工具使用的强化学习
⏶
44
在推理模型中从同伴学习
⏶
43
视觉-语言-视觉自编码器:从扩散模型中进行可扩展的知识蒸馏
⏶
41
PixelHacker:结构和语义一致性的图像修复
⏶
38
SpatialLM: 训练大语言模型进行结构化室内建模
⏶
35
视频扩散模型的时序上下文微调:实现通用控制
⏶
32
Easy Dataset:一个用于从非结构化文档中合成LLM微调数据的统一且可扩展的框架
⏶
31
aMUSEd:开源MUSE复现
⏶
31
LightLab:使用扩散模型控制图像中的光源
⏶
31
RLVER: 具有可验证情感奖励的强化学习,用于共情智能体
⏶
30
REFINE-AF:一个通过使用来自自动化反馈的强化学习自生成指令来对齐语言模型的任务无关框架
⏶
30
通过强化学习实现高效医学 VIE
⏶
28
用于语言模型对齐的自博弈偏好优化
⏶
27
GR-3 技术报告
⏶
25
Jigsaw-R1:基于拼图的规则化视觉强化学习研究
⏶
21
AerialMegaDepth:学习空中-地面重建和视图合成
⏶
21
扩展模态是通向全模态的正确道路吗?
⏶
20
大型语言模型是贪婪的智能体:强化学习微调对决策能力的影响
⏶
18
SWE-Flow: 以测试驱动方式合成软件工程数据
⏶
17
QFFT:用于自适应推理的无问微调
⏶
15
BUT 系统参加 MLC-SLM 挑战赛
⏶
14
LLM推理的极简主义方法:从拒绝采样到强化学习
⏶
14
在开源 LLM 上微调时要小心:你的微调数据可能被秘密窃取!
⏶
14
MedGemma 技术报告
⏶
13
CS-Sum:语码转换对话摘要的基准以及大型语言模型的局限性
⏶
13
EasyText:用于多语言文本渲染的可控扩散Transformer
⏶
13
从多模态基础模型中的动力学模型自举世界模型
⏶
12
多token预测需要寄存器
⏶
11
帮助还是驱赶?奖励模型集成缓解但不能消除奖励黑客行为
⏶
11
DRAGON:分布奖励优化扩散生成模型
⏶
11
Speechless:适用于低资源语言的无需语音的语音指令训练
⏶
10
ConfQA: 只有在你自信时才回答
⏶
10
迷失在混合中:评估大型语言模型对语码转换文本的理解
⏶
8
思想操纵:外部的思考可以高效地用于大型推理模型
⏶
8
请注意!重新审视用于掩码图像建模的注意力探查
⏶
6
预训练语言模型用于历时语言变化发现
⏶
6
MedCaseReasoning: 从临床病例报告中评估和学习诊断推理
⏶
6
通过 Mirror Prox 加速来自人类反馈的纳什学习
⏶
5
InteractVLM:来自2D基础模型的3D交互推理
⏶
5
蒸馏用于自回归图像生成的语义感知序列
⏶
5
就像人类需要疫苗,模型也需要:模型免疫以对抗谬误
⏶
5
实现灵活的多大语言模型集成用于可扩展的知识聚合
⏶
5
微调SLM还是提示LLM?以生成低代码工作流为例
⏶
5
Infinity Instruct:规模化指令选择与合成以增强语言模型
⏶
4
RuOpinionNE-2024:从俄语新闻文本中提取意见元组
⏶
4
一种探究大型语言模型中知识结构模式的图视角
⏶
4
RKEFino1: 法规知识增强型大语言模型
⏶
4
用于微调视频扩散模型的跨帧表征对齐
⏶
4
EMLoC:基于模拟器的内存高效微调,结合 LoRA 校正
⏶
4
生物医学富集:一个由大语言模型(LLMs)增强的生物医学数据集,用于预训练和提取稀有和隐藏内容
⏶
3
AutoLibra:基于开放式反馈的智能体指标归纳
⏶
3
揭示指令特异性神经元与专家:LLM指令遵循能力的分析框架
⏶
3
GuideX: 引导式合成数据生成,用于零样本信息抽取
⏶
3
寻宝:利用训练时标记实时定位长尾
⏶
2
TAGS:一个具有检索增强推理和验证的测试时通用-专家框架
⏶
2
InstructPart:面向任务的部分分割与指令推理
⏶
1
分心效应:理解 RAG 中的不相关段落
⏶
1
使用 MIDI-RWKV 实现可个性化的长上下文符号音乐填充