⏶16
CipherBank:通过密码学挑战探索LLM推理能力的边界
发表
由
QizhiPei 提交

作者:
Yu Li, Qizhi Pei,
Mengyuan Sun,
Honglin Lin,
Chenlin Ming, Xin Gao,
Jiang Wu,
Conghui He,
Lijun Wu



摘要
大型语言模型(LLMs)展示了卓越的能力,特别是近期在推理方面的进展,例如o1和o3,推动了人工智能的边界。尽管在数学和编码方面取得了令人瞩目的成就,但在需要密码学专业知识的领域,LLMs的推理能力仍未得到充分探索。在本文中,我们引入了CipherBank,这是一个全面的基准测试,旨在评估LLMs在密码解密任务中的推理能力。CipherBank包含2358个精心设计的问题,涵盖5个领域和14个子领域中的262个独特明文,侧重于隐私敏感和需要加密的现实场景。从密码学角度来看,CipherBank包含了3大类加密方法,涵盖9种不同的算法,范围从经典密码到自定义密码技术。我们评估了CipherBank上最先进的LLMs,例如GPT-4o、DeepSeek-V3,以及尖端的专注于推理的模型,例如o1和DeepSeek-R1。我们的结果揭示了通用聊天LLMs和专注于推理的LLMs之间的推理能力存在显著差距,以及当前专注于推理的模型在应用于经典密码解密任务时表现出的挑战,凸显了这些模型在理解和操作加密数据方面面临的困难。通过详细分析和错误调查,我们提供了一些关键观察,这些观察阐明了LLMs在密码推理中的局限性和潜在改进领域。这些发现强调了持续提升LLM推理能力的必要性。
评论

论文提交者
大语言模型 (LLMs) 已展示出卓越的能力,特别是在推理方面的最新进展,例如 o1 和 o3,正在推动 AI 的边界。尽管在数学和编码方面取得了这些令人瞩目的成就,但 LLMs 在需要密码学专业知识领域的推理能力仍有待深入探索。在本文中,我们介绍了 CipherBank,这是一个综合性基准测试,旨在评估 LLMs 在密码学解密任务中的推理能力。CipherBank 包含 2,358 个精心设计的问题,涵盖 5 个领域和 14 个子领域的 262 个独特明文,重点关注需要加密的隐私敏感和现实世界场景。从密码学的角度来看,CipherBank 包含了 3 大类加密方法,涵盖 9 种不同的算法,从经典密码到定制密码技术。我们在 CipherBank 上评估了最先进的 LLMs,例如 GPT-4o、DeepSeek-V3 以及 o1 和 DeepSeek-R1 等尖端的专注于推理的模型。我们的结果揭示了推理能力的显著差距,不仅在通用聊天 LLM 和专注于推理的 LLM 之间存在差距,而且当前专注于推理的模型在应用于经典密码学解密任务时也存在性能差距,突显了这些模型在理解和操纵加密数据方面面临的挑战。通过详细分析和错误调查,我们提供了一些关键观察结果,揭示了 LLMs 在密码学推理中的局限性和潜在改进领域。这些发现强调了持续改进 LLM 推理能力的必要性。
大语言模型 (LLMs) 已展示出卓越的能力,特别是在推理方面的最新进展,例如 o1 和 o3,正在推动 AI 的边界。尽管在数学和编码方面取得了这些令人瞩目的成就,但 LLMs 在需要密码学专业知识领域的推理能力仍有待深入探索。在本文中,我们介绍了 CipherBank,这是一个综合性基准测试,旨在评估 LLMs 在密码学解密任务中的推理能力。CipherBank 包含 2,358 个精心设计的问题,涵盖 5 个领域和 14 个子领域的 262 个独特明文,重点关注需要加密的隐私敏感和现实世界场景。从密码学的角度来看,CipherBank 包含了 3 大类加密方法,涵盖 9 种不同的算法,从经典密码到定制密码技术。我们在 CipherBank 上评估了最先进的 LLMs,例如 GPT-4o、DeepSeek-V3 以及 o1 和 DeepSeek-R1 等尖端的专注于推理的模型。我们的结果揭示了推理能力的显著差距,不仅在通用聊天 LLM 和专注于推理的 LLM 之间存在差距,而且当前专注于推理的模型在应用于经典密码学解密任务时也存在性能差距,突显了这些模型在理解和操纵加密数据方面面临的挑战。通过详细分析和错误调查,我们提供了一些关键观察结果,揭示了 LLMs 在密码学推理中的局限性和潜在改进领域。这些发现强调了持续改进 LLM 推理能力的必要性。