AI论文精选
微调
⏶
189
GaLore:通过梯度低秩投影实现内存高效的LLM训练
⏶
135
PaliGemma 2:用于迁移的多功能VLM系列
⏶
122
Seaweed-7B:视频生成基础模型的经济高效训练
⏶
73
Alchemist: 将公共文本到图像数据转化为生成式黄金
⏶
70
SageAttention3:微缩放 FP4 注意力用于推理以及对 8 比特训练的探索
⏶
60
ReTool:用于LLM中战略工具使用的强化学习
⏶
44
在推理模型中从同伴学习
⏶
41
PixelHacker:结构和语义一致性的图像修复
⏶
35
视频扩散模型的时序上下文微调:实现通用控制
⏶
31
aMUSEd:开源MUSE复现
⏶
31
LightLab:使用扩散模型控制图像中的光源
⏶
30
REFINE-AF:一个通过使用来自自动化反馈的强化学习自生成指令来对齐语言模型的任务无关框架
⏶
28
用于语言模型对齐的自博弈偏好优化
⏶
25
Jigsaw-R1:基于拼图的规则化视觉强化学习研究
⏶
21
AerialMegaDepth:学习空中-地面重建和视图合成
⏶
20
大型语言模型是贪婪的智能体:强化学习微调对决策能力的影响
⏶
14
LLM推理的极简主义方法:从拒绝采样到强化学习
⏶
14
在开源 LLM 上微调时要小心:你的微调数据可能被秘密窃取!
⏶
13
CS-Sum:语码转换对话摘要的基准以及大型语言模型的局限性
⏶
12
多token预测需要寄存器
⏶
12
EasyText:用于多语言文本渲染的可控扩散Transformer
⏶
11
帮助还是驱赶?奖励模型集成缓解但不能消除奖励黑客行为
⏶
11
DRAGON:分布奖励优化扩散生成模型
⏶
11
Speechless:适用于低资源语言的无需语音的语音指令训练
⏶
8
思想操纵:外部的思考可以高效地用于大型推理模型
⏶
6
预训练语言模型用于历时语言变化发现
⏶
6
MedCaseReasoning: 从临床病例报告中评估和学习诊断推理
⏶
6
通过 Mirror Prox 加速来自人类反馈的纳什学习
⏶
5
InteractVLM:来自2D基础模型的3D交互推理
⏶
5
蒸馏用于自回归图像生成的语义感知序列
⏶
5
就像人类需要疫苗,模型也需要:模型免疫以对抗谬误
⏶
5
实现灵活的多大语言模型集成用于可扩展的知识聚合
⏶
5
微调SLM还是提示LLM?以生成低代码工作流为例
⏶
4
RuOpinionNE-2024:从俄语新闻文本中提取意见元组
⏶
4
一种探究大型语言模型中知识结构模式的图视角
⏶
3
AutoLibra:基于开放式反馈的智能体指标归纳
⏶
3
揭示指令特异性神经元与专家:LLM指令遵循能力的分析框架
⏶
2
TAGS:一个具有检索增强推理和验证的测试时通用-专家框架
⏶
2
InstructPart:面向任务的部分分割与指令推理
⏶
1
分心效应:理解 RAG 中的不相关段落