AI论文精选
微调
⏶
245
Llama 2:开放基础和微调的聊天模型
⏶
188
GaLore:通过梯度低秩投影实现内存高效的LLM训练
⏶
112
SingLoRA:使用单个矩阵的低秩适应
⏶
110
SLA:通过可微调的稀疏线性注意力,在扩散Transformer中超越稀疏性
⏶
102
MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉语言模型
⏶
98
ScreenCoder:通过模块化多模态智能体推进前端自动化的视觉代码生成
⏶
91
从编辑器到密集几何估计器
⏶
86
Hala技术报告:大规模构建以阿拉伯语为中心的指令和翻译模型
⏶
83
Alchemist: 将公共文本到图像数据转化为生成式黄金
⏶
75
SageAttention3:微缩放 FP4 注意力用于推理以及对 8 比特训练的探索
⏶
62
ReTool:用于LLM中战略工具使用的强化学习
⏶
56
ARC-混元-视频-7B:真实世界短视频的结构化视频理解
⏶
52
OpenGPT-4o-Image:用于高级图像生成和编辑的综合数据集
⏶
50
SpatialLM: 训练大语言模型进行结构化室内建模
⏶
48
Easy Dataset:一个用于从非结构化文档中合成LLM微调数据的统一且可扩展的框架
⏶
45
在推理模型中从同伴学习
⏶
45
视觉-语言-视觉自编码器:从扩散模型中进行可扩展的知识蒸馏
⏶
38
视频扩散模型的时序上下文微调:实现通用控制
⏶
37
UniREditBench:一个统一的基于推理的图像编辑基准
⏶
36
LightLab:使用扩散模型控制图像中的光源
⏶
33
Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct 技术报告
⏶
31
aMUSEd:开源MUSE复现
⏶
31
通过强化学习实现高效医学 VIE
⏶
31
RLVER: 具有可验证情感奖励的强化学习,用于共情智能体
⏶
31
STream3R: 使用因果变换器进行可扩展的序列三维重建
⏶
30
用于评估条件图像生成的统一代理框架
⏶
30
REFINE-AF:一个通过使用来自自动化反馈的强化学习自生成指令来对齐语言模型的任务无关框架
⏶
30
WorldForge:通过无训练引导在视频扩散模型中解锁新兴的 3D/4D 生成
⏶
30
UI2Code^N:一个可视化语言模型,用于测试时可扩展的交互式 UI 到代码生成
⏶
27
用于语言模型对齐的自博弈偏好优化
⏶
27
模型编辑中的微调得当
⏶
26
当今的大型语言模型准备好解释幸福概念了吗?
⏶
25
Jigsaw-R1:基于拼图的规则化视觉强化学习研究
⏶
24
IntrEx:一个用于模拟教育对话参与度的数据集
⏶
23
扩展模态是通向全模态的正确道路吗?
⏶
23
非洲语言实验室:推进低资源非洲 NLP 的协作方法
⏶
20
可扩展机器人操作只需要多样性吗?
⏶
20
OmniEAR:对具身任务中代理推理能力的基准测试
⏶
19
Kimi-Audio 技术报告
⏶
19
上下文编辑:利用大规模扩散Transformer中的上下文生成实现指令式图像编辑
⏶
19
平静在风暴之前:解锁用于优化建模的原生推理
⏶
18
SWE-Flow: 以测试驱动方式合成软件工程数据
⏶
18
QFFT:用于自适应推理的无问微调
⏶
16
OmniTry:无需蒙版的万物虚拟试穿
⏶
15
在开源 LLM 上微调时要小心:你的微调数据可能被秘密窃取!
⏶
15
BUT 系统参加 MLC-SLM 挑战赛
⏶
14
多token预测需要寄存器
⏶
14
Speechless:适用于低资源语言的无需语音的语音指令训练
⏶
14
MedGemma 技术报告
⏶
13
CS-Sum:语码转换对话摘要的基准以及大型语言模型的局限性
⏶
13
从多模态基础模型中的动力学模型自举世界模型
⏶
12
LDM3D:用于3D的潜在扩散模型
⏶
12
探索专家失败可以改进LLM代理调优
⏶
12
EasyText:用于多语言文本渲染的可控扩散Transformer
⏶
12
MathSE: 通过自演化迭代反思和奖励引导微调改进多模态数学推理
⏶
11
MultiEdit:在多样化和具有挑战性的任务上推进基于指令的图像编辑
⏶
10
ConfQA: 只有在你自信时才回答
⏶
10
迷失在混合中:评估大型语言模型对语码转换文本的理解
⏶
9
AI-University:一个基于LLM的平台,用于教学与科学课堂的对齐
⏶
9
评估、合成和增强客户支持对话
⏶
9
Music Flamingo: 扩展音频语言模型中的音乐理解
⏶
7
MedCaseReasoning: 从临床病例报告中评估和学习诊断推理
⏶
7
请注意!重新审视用于掩码图像建模的注意力探查
⏶
7
基准设计者应该“在测试集上训练”以揭示可利用的非视觉捷径
⏶
6
通过 Mirror Prox 加速来自人类反馈的纳什学习
⏶
6
Pseudo2Real: 用于自动语音识别中伪标签校正的任务算术
⏶
5
就像人类需要疫苗,模型也需要:模型免疫以对抗谬误
⏶
5
微调SLM还是提示LLM?以生成低代码工作流为例
⏶
5
用于微调视频扩散模型的跨帧表征对齐
⏶
5
生物医学富集:一个由大语言模型(LLMs)增强的生物医学数据集,用于预训练和提取稀有和隐藏内容
⏶
5
大规模演化策略:超越强化学习的 LLM 微调
⏶
5
在可扩展的中期训练强化学习中学习将推理视为动作抽象
⏶
5
最优控制与流匹配:面向多主体保真度的原理性路线
⏶
5
DialectGen:用于多模态生成中方言鲁棒性的基准测试和改进
⏶
4
X-Cross:用于跨域序列推荐的语言模型动态集成
⏶
4
实现灵活的多大语言模型集成用于可扩展的知识聚合
⏶
4
RKEFino1: 法规知识增强型大语言模型
⏶
4
Infinity Instruct:规模化指令选择与合成以增强语言模型
⏶
4
Visual-TableQA:开放域表格图像推理基准
⏶
4
信任度的上下文工程:混合和不当上下文下的 Rescorla Wagner 引导
⏶
4
多语言、多文化人工智能系统中合成数据的作用:来自印度语言的经验教训
⏶
4
oMeBench:迈向有机机制阐释与推理中大型语言模型的鲁棒性基准测试
⏶
4
CLASS-IT: 针对BabyLMs的会话和讲座对齐的小规模指令微调
⏶
4
SIMS-V:用于空间视频理解的模拟指令微调
⏶
3
RuOpinionNE-2024:从俄语新闻文本中提取意见元组
⏶
3
AutoLibra:基于开放式反馈的智能体指标归纳
⏶
3
揭示指令特异性神经元与专家:LLM指令遵循能力的分析框架
⏶
3
一种探究大型语言模型中知识结构模式的图视角
⏶
3
GuideX: 引导式合成数据生成,用于零样本信息抽取
⏶
3
寻宝:利用训练时标记实时定位长尾
⏶
3
EMLoC:基于模拟器的内存高效微调,结合 LoRA 校正
⏶
3
HiKE:韩语-英语代码转换语音识别的分层评估框架
⏶
3
没有计划的目标只是一厢情愿:针对长时程智能体任务的全局规划器的高效且有效的训练
⏶
3
Target-Bench:世界模型能否通过语义目标实现无图路径规划?
⏶
3
SkillFactory:用于学习认知行为的自蒸馏
⏶
2
TAGS:一个具有检索增强推理和验证的测试时通用-专家框架
⏶
2
InstructPart:面向任务的部分分割与指令推理
⏶
2
CC30k: 一个面向可复现性情感分析的引文上下文数据集
⏶
2
当AI躺上沙发:心理测量越狱揭示了前沿模型的内部冲突
⏶
1
分心效应:理解 RAG 中的不相关段落
⏶
1
使用 MIDI-RWKV 实现可个性化的长上下文符号音乐填充
⏶
1
RotBench:评估多模态大型语言模型识别图像旋转的能力
⏶
1
通过上下文学习估计时间序列基础模型的迁移能力
⏶
1
MATH-Beyond:一个用于强化学习超越基础模型的基准
⏶
1
超越对象:用于细粒度分类的上下文合成数据生成