AI论文精选
每日论文
◀
05月28日
▶
⏶
101
ScienceBoard:评测多模态自主智能体在真实科学工作流程中
⏶
94
Paper2Poster:迈向基于科学论文的多模态海报自动化
⏶
82
MME-Reasoning:一个面向 MLLMs 中逻辑推理的综合基准
⏶
64
SynLogic:大规模合成可验证推理数据,迈向逻辑推理及其他领域
⏶
63
OmniConsistency:从配对风格化数据中学习与风格无关的一致性
⏶
60
探索大型语言模型在一步文本生成中的潜在能力
⏶
55
不要过度思考。偏好更短的思维链以改进 LLM 推理
⏶
52
OpenS2V-Nexus:面向主体到视频生成的详细基准和百万规模数据集
⏶
45
MMMR:大规模多模态推理任务基准测试
⏶
45
直觉指引:基于增强内在信心的高效测试时扩展
⏶
43
代码图模型 (CGM):一种集成图的大语言模型,用于代码仓库级软件工程任务
⏶
42
VerIPO:通过验证器引导的迭代策略优化在 Video-LLMs 中培养长程推理能力
⏶
40
Sparse VideoGen2:通过语义感知的置换和稀疏注意力加速视频生成
⏶
39
MME-VideoOCR:评估多模态 LLMs 在视频场景下的 OCR 能力
⏶
38
UI-Genie:一种自改进方法,用于迭代提升基于 MLLM 的移动 GUI 智能体
⏶
36
GraLoRA:用于参数高效微调的细粒度低秩适应
⏶
31
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
⏶
27
Video-Holmes:MLLM 能像福尔摩斯一样进行复杂的视频推理吗?
⏶
27
rStar-Coder:通过大规模验证数据集扩展竞争性代码推理能力
⏶
26
无需验证器强化通用推理
⏶
24
MetaMind:使用元认知多智能体系统建模人类社会思维
⏶
19
HoliTom: 用于快速视频大型语言模型的整体式 token 合并
⏶
19
超越蒸馏:借助极简规则强化学习推动医学大模型推理的极限
⏶
19
MotionPro:用于图像到视频生成的精确运动控制器
⏶
18
对齐如何增强大型语言模型的跨语言能力?一个语言神经元的视角
⏶
17
ImgEdit:一个统一的图像编辑数据集和基准
⏶
17
Frame In-N-Out:无限制的可控图像到视频生成
⏶
17
NOVA: 用于脑部MRI异常定位和临床推理的基准
⏶
14
Active-O3:通过 GRPO 赋予多模态大语言模型主动感知能力
⏶
14
超越 Prompt Engineering:通过引导目标原子实现 LLMs 中鲁棒的行为控制
⏶
14
DetailFlow:通过预测下一细节进行一维从粗到细的自回归图像生成
⏶
13
FinTagging:用于提取和结构化金融信息的LLM(大型语言模型)就绪基准
⏶
11
ViewSpatial-Bench:评估视觉-语言模型中的多视角空间定位能力
⏶
11
用于矢量图形生成的渲染感知强化学习
⏶
10
VisualToolAgent (VisTA):一个用于视觉工具选择的强化学习框架
⏶
10
Thinker:学习快思慢想
⏶
8
SeePhys:“看”有助于“思考”吗?——基于视觉的物理推理基准测试
⏶
8
通过特征最优对齐攻击闭源 MLLMs 的对抗性攻击
⏶
8
MMMG: 一个用于多任务多模态生成的全面可靠评估套件
⏶
7
超越马尔可夫性:通过贝叶斯自适应强化学习实现大型语言模型的反思性探索推理
⏶
6
先学走再学跑!通过强化学习实现简洁的大型语言模型推理
⏶
6
Alita:实现可扩展代理推理的通用代理,具有最小预定义和最大自我进化
⏶
6
VideoGameBench: 视觉-语言模型能否通关热门电子游戏?
⏶
6
MMPerspective:MLLMs 理解透视吗?一个用于透视感知、推理和鲁棒性的全面基准
⏶
6
用于复杂指令遵循的反向偏好优化
⏶
5
具有双重并行性的分钟级视频
⏶
5
Sci-Fi:用于帧插值的对称约束
⏶
5
压缩后的大型语言模型能否真正具备自主行动能力?对大型语言模型压缩中自主行动能力的一次实证评估
⏶
5
在思考过程中搜索和细化:大型语言模型的自主检索增强推理
⏶
5
R1-Searcher++:通过强化学习激励大型语言模型(LLMs)的动态知识获取
⏶
5
MLLMs 深受模态偏差影响
⏶
5
BiomedSQL: 基于生物医学知识库进行科学推理的文本到SQL
⏶
5
通过多智能体协作,扩展超出大型语言模型上下文窗口的外部知识输入
⏶
4
SoloSpeech:通过级联生成管线增强目标语音提取的清晰度和质量
⏶
4
模态策展:构建用于高级多模态信息检索的通用嵌入
⏶
4
VLM-3R:基于指令对齐三维重建增强的视觉-语言模型
⏶
3
DFIR-Metric: 用于评估大型语言模型在数字取证和事件响应中表现的基准数据集
⏶
3
ComfyMind: 基于树形规划和反应式反馈的通用生成方法
⏶
3
用于 LLM 红队测试的基于能力的扩展定律
⏶
3
逆向虚拟试穿:从着装个体生成多类别产品风格图像
⏶
3
空间知识图谱引导的多模态合成
⏶
2
绝对坐标使运动生成变得容易
⏶
2
R1-ShareVL: 通过 Share-GRPO 激励多模态大型语言模型的推理能力
⏶
2
AdInject:现实世界中通过广告投放对Web代理进行的黑盒攻击
⏶
2
SATORI-R1:通过空间基础和可验证奖励激励多模态推理
⏶
2
CoreMatching:一种用于全面加速视觉-语言模型的、带有 Token 和神经元剪枝的协同自适应稀疏推理框架
⏶
2
PreMoe:通过专家剪枝和检索减轻受限内存上的 MoEs
⏶
1
通过 SMILES 解析改进 LLMs 的化学理解能力
⏶
1
热带注意力:用于组合算法的神经算法推理
⏶
1
RAG 系统是否存在位置偏差?
⏶
1
解释自动化事实核查中的不确定性来源
⏶
1
知识增强的Text-to-SQL的知识库构建
⏶
0
Ankh3:结合序列去噪与补全的多任务预训练,增强蛋白质表示
⏶
0
超越简单拼接:公平评估用于多链蛋白质-蛋白质相互作用预测的PLM架构
⏶
0
一个针对神经退行性痴呆的可解释诊断框架,通过强化优化的LLM推理实现
⏶
0
带有自蒸馏寄存器的视觉 Transformer