大语言模型

A.S.E：评估人工智能生成代码安全性的存储库级别基准

A.S.E：评估人工智能生成代码安全性的存储库级别基准

Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译

Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译

胡言乱语学：用深度解读胡言乱语挑战大型语言模型

胡言乱语学：用深度解读胡言乱语挑战大型语言模型

超越二八法则：高熵少数词元驱动LLM推理中的有效强化学习

超越二八法则：高熵少数词元驱动LLM推理中的有效强化学习

MemOS: 专为AI系统设计的内存操作系统

MemOS: 专为AI系统设计的内存操作系统

用于推理语言模型的强化学习熵机制

用于推理语言模型的强化学习熵机制

R-Zero：从零数据中自我演进的推理大型语言模型

R-Zero：从零数据中自我演进的推理大型语言模型

ReasonMed: 一个37万多智能体生成数据集，助力医学推理

ReasonMed: 一个37万多智能体生成数据集，助力医学推理

Table-R1：面向表格推理的推理时缩放

Table-R1：面向表格推理的推理时缩放

SSRL: 自搜索强化学习

MultiFinBen: 一个多语言、多模态、难度感知的金融大模型评估基准

MultiFinBen: 一个多语言、多模态、难度感知的金融大模型评估基准

推理还是记忆化？数据污染导致的强化学习结果不可靠

推理还是记忆化？数据污染导致的强化学习结果不可靠

DuPO：通过双偏好优化实现可靠的大语言模型自我验证

DuPO：通过双偏好优化实现可靠的大语言模型自我验证

LLM 中的地缘政治偏见：当代语言模型眼中的“好”国家和“坏”国家

LLM 中的地缘政治偏见：当代语言模型眼中的“好”国家和“坏”国家

Saffron-1: 迈向大语言模型安全保障的推理扩展范式

Saffron-1: 迈向大语言模型安全保障的推理扩展范式

开放视觉推理器：迁移语言认知行为以实现视觉推理

开放视觉推理器：迁移语言认知行为以实现视觉推理

ZeroSearch：无需搜索即可激发 LLMs 的搜索能力

ZeroSearch：无需搜索即可激发 LLMs 的搜索能力

马吉斯特拉

Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器

Tool-Star: 通过强化学习赋能具备LLM大脑的多工具推理器

反馈摩擦：LLMs 难以充分吸收外部反馈

反馈摩擦：LLMs 难以充分吸收外部反馈

CMI-Bench：一个用于评估音乐指令遵循的综合基准

CMI-Bench：一个用于评估音乐指令遵循的综合基准

Skywork Open Reasoner 1 技术报告

Skywork Open Reasoner 1 技术报告

SWE-Factory：用于问题解决训练数据和评估基准的自动化工厂

SWE-Factory：用于问题解决训练数据和评估基准的自动化工厂

AmbiK：厨房环境中的歧义任务数据集

AmbiK：厨房环境中的歧义任务数据集

代码图模型 (CGM)：一种集成图的大语言模型，用于代码仓库级软件工程任务

代码图模型 (CGM)：一种集成图的大语言模型，用于代码仓库级软件工程任务

HardTests：为LLM编码合成高质量测试用例

HardTests：为LLM编码合成高质量测试用例

MCP-宇宙：使用真实世界模型上下文协议服务器对大型语言模型进行基准测试

MCP-宇宙：使用真实世界模型上下文协议服务器对大型语言模型进行基准测试

The Common Pile v0.1：一个包含 8TB 公有领域和开放许可文本的数据集

The Common Pile v0.1：一个包含 8TB 公有领域和开放许可文本的数据集

复杂逻辑指令生成

具有可验证奖励的强化学习隐式激励基础LLM中的正确推理

具有可验证奖励的强化学习隐式激励基础LLM中的正确推理

Xolver：通过整体经验学习进行多智能体推理，就像奥林匹克竞赛团队一样

Xolver：通过整体经验学习进行多智能体推理，就像奥林匹克竞赛团队一样

通过带有冷启动的强化学习推进多模态推理

通过带有冷启动的强化学习推进多模态推理

一切尚未失去：无需检查点的大语言模型恢复

一切尚未失去：无需检查点的大语言模型恢复

Baichuan-M2：使用大型验证器系统扩展医疗能力

Baichuan-M2：使用大型验证器系统扩展医疗能力

RecGPT 技术报告

AgentScope 1.0：一个以开发者为中心的框架，用于构建 Agentic 应用

AgentScope 1.0：一个以开发者为中心的框架，用于构建 Agentic 应用

司南验证器 (CompassVerifier)：一个用于大语言模型评估和结果奖励的统一鲁棒验证器

司南验证器 (CompassVerifier)：一个用于大语言模型评估和结果奖励的统一鲁棒验证器

理解工具集成推理

Spacer：迈向工程化科学灵感

Spacer：迈向工程化科学灵感

SweEval: LLMs真的会说脏话吗？用于测试企业用途限制的安全基准

SweEval: LLMs真的会说脏话吗？用于测试企业用途限制的安全基准

VRBench：长篇叙事视频中的多步推理基准

VRBench：长篇叙事视频中的多步推理基准

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct 技术报告

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct 技术报告

PyVision：具有动态工具的代理视觉

PyVision：具有动态工具的代理视觉

Lumos-1：从统一模型视角看自回归视频生成

Lumos-1：从统一模型视角看自回归视频生成

UserBench：一个以用户为中心的代理的交互式健身环境

UserBench：一个以用户为中心的代理的交互式健身环境

LoftQ：用于大型语言模型的LoRA微调感知量化

LoftQ：用于大型语言模型的LoRA微调感知量化

AgentRewardBench：评估Web代理轨迹的自动评估

AgentRewardBench：评估Web代理轨迹的自动评估

rStar-Coder：通过大规模验证数据集扩展竞争性代码推理能力

rStar-Coder：通过大规模验证数据集扩展竞争性代码推理能力

通过下一事件预测促进视频推理

通过快捷神经元分析建立可靠的LLM评估

通过快捷神经元分析建立可靠的LLM评估

AttentionInfluence：采用注意力头的影响用于从弱到强的预训练数据选择

AttentionInfluence：采用注意力头的影响用于从弱到强的预训练数据选择

芦荟家族秘方：用于开放和专业化医疗健康LLM

芦荟家族秘方：用于开放和专业化医疗健康LLM

无需验证器强化通用推理

当今的大型语言模型准备好解释幸福概念了吗？

当今的大型语言模型准备好解释幸福概念了吗？

VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码

VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码

Grove MoE：通过伴随专家实现高效卓越的 MoE LLM

Grove MoE：通过伴随专家实现高效卓越的 MoE LLM

在游戏中思考：通过大型语言模型强化学习在游戏中学习推理

在游戏中思考：通过大型语言模型强化学习在游戏中学习推理

借助工具强化视觉感知

Qwen3量化的一项实证研究

语言模型的终身安全对齐

预训练大语言模型在语境中学习隐马尔可夫模型

预训练大语言模型在语境中学习隐马尔可夫模型

首次回报，熵诱导探索

C3：一个用于探索复杂对话中挑战的双语口语对话模型基准

C3：一个用于探索复杂对话中挑战的双语口语对话模型基准

大型语言模型预训练优化器基准测试

大型语言模型预训练优化器基准测试

EfficientLLM: 大语言模型中的效率

EfficientLLM: 大语言模型中的效率

LiveCodeBench Pro: 奥林匹克奖牌得主如何在竞技编程中评判大型语言模型？

LiveCodeBench Pro: 奥林匹克奖牌得主如何在竞技编程中评判大型语言模型？

lmgame-Bench：LLMs 玩游戏水平如何？

lmgame-Bench：LLMs 玩游戏水平如何？

SWE-bench上线了！

使用大语言模型求解不等式证明

尼罗河聊天：针对阿拉伯语和拉丁语文字的埃及语言模型

尼罗河聊天：针对阿拉伯语和拉丁语文字的埃及语言模型

推理模型更好地表达它们的置信度

推理模型更好地表达它们的置信度

aiXiv：由 AI 科学家生成的科学发现下一代开放获取生态系统

aiXiv：由 AI 科学家生成的科学发现下一代开放获取生态系统

FlashAdventure：用于 GUI 代理解决多样化冒险游戏中完整故事线上的基准测试

迈向 LLM 中的安全推理：AI 智能体式审议用于策略嵌入式 CoT 数据创建

迈向 LLM 中的安全推理：AI 智能体式审议用于策略嵌入式 CoT 数据创建

大型语言模型可以识别科学研究中的关键局限性吗？人工智能研究论文的系统评估

大型语言模型可以识别科学研究中的关键局限性吗？人工智能研究论文的系统评估

CLEAR：基于LLM评判的错误分析变得简单

CLEAR：基于LLM评判的错误分析变得简单

通过内部表征的视角分析大型语言模型跨语言的知识边界认知

通过内部表征的视角分析大型语言模型跨语言的知识边界认知

EmergentTTS-Eval：使用模型作为评判者评估TTS模型在复杂的韵律、表现力和语言挑战上的表现

EmergentTTS-Eval：使用模型作为评判者评估TTS模型在复杂的韵律、表现力和语言挑战上的表现

搜索竞技场：分析搜索增强型大语言模型

搜索竞技场：分析搜索增强型大语言模型

从 KMMLU-Redux 到 KMMLU-Pro：用于大语言模型评估的专业韩语基准套件

从 KMMLU-Redux 到 KMMLU-Pro：用于大语言模型评估的专业韩语基准套件

从阅读时的眼动中解码开放式信息搜索目标

从阅读时的眼动中解码开放式信息搜索目标

SparseMM：MLLM 中视觉概念响应产生的头部稀疏性

SparseMM：MLLM 中视觉概念响应产生的头部稀疏性

给我FP32，否则宁死？可复现推理的挑战与解决方案

给我FP32，否则宁死？可复现推理的挑战与解决方案

LLM 能为算法问题生成高质量测试用例吗？TestCase-Eval：故障覆盖率和暴露的系统性评估

LLM 能为算法问题生成高质量测试用例吗？TestCase-Eval：故障覆盖率和暴露的系统性评估

AbGen：评估大型语言模型在科学研究中消融研究设计和评估方面的能力

AbGen：评估大型语言模型在科学研究中消融研究设计和评估方面的能力

教学中的谎言: 基于合成负样本的课程DPO用于幻觉检测

教学中的谎言: 基于合成负样本的课程DPO用于幻觉检测

在复杂的动态环境中，输入重构如何提高工具使用准确性？一项关于τ-bench的研究

在复杂的动态环境中，输入重构如何提高工具使用准确性？一项关于τ-bench的研究

SwS：强化学习中用于LLM推理的自我感知弱点驱动问题合成

SwS：强化学习中用于LLM推理的自我感知弱点驱动问题合成

布尔巴基：用于定理证明的自生成和目标条件 MDP

布尔巴基：用于定理证明的自生成和目标条件 MDP

CS-Sum：语码转换对话摘要的基准以及大型语言模型的局限性

CS-Sum：语码转换对话摘要的基准以及大型语言模型的局限性

探索大型语言模型的联邦剪枝

AgentsNet：多智能体LLM中的协调与协作推理

AgentsNet：多智能体LLM中的协调与协作推理

利用大型语言模型对人类苦难进行预测分析

利用大型语言模型对人类苦难进行预测分析

属性作为文本基因：利用 LLM 作为遗传算法模拟器进行条件合成数据生成

属性作为文本基因：利用 LLM 作为遗传算法模拟器进行条件合成数据生成

独立于 LLM 的自适应 RAG：让问题自己说话

独立于 LLM 的自适应 RAG：让问题自己说话

ChineseHarm-Bench：一个中文有害内容检测基准

ChineseHarm-Bench：一个中文有害内容检测基准

自动化LLM速通基准：重现NanoGPT改进

自动化LLM速通基准：重现NanoGPT改进

ICon: 上下文贡献用于自动数据选择

ICon: 上下文贡献用于自动数据选择

Eka-Eval：一个在印度语言中评估大型语言模型的综合框架

Eka-Eval：一个在印度语言中评估大型语言模型的综合框架

SPAR：利用基于LLM的智能体增强学术搜索的学者论文检索

SPAR：利用基于LLM的智能体增强学术搜索的学者论文检索

基于评分锚点的强化学习

CCI4.0: 用于增强大语言模型推理能力的双语预训练数据集

CCI4.0: 用于增强大语言模型推理能力的双语预训练数据集

ConfQA: 只有在你自信时才回答

ConfQA: 只有在你自信时才回答

ZeCO: 零通信开销的线性注意力序列并行

ZeCO: 零通信开销的线性注意力序列并行

民主化外交：评估大型语言模型在“全面外交”中表现的利器

民主化外交：评估大型语言模型在“全面外交”中表现的利器