Supernova Event Dataset:通过关键事件分析解释大型语言模型的个性

发表
Pranav AgarwalPranav Agarwal 提交
作者: Pranav AgarwalPranav Agarwal, Ioana Ciucă

摘要

大型语言模型 (LLMs) 正日益集成到日常应用中。随着其影响力的增长,理解它们的决策过程和潜在个性变得至关重要。在这项工作中,我们使用我们提出的 Supernova Event Dataset 来解释模型个性,这是一个包含传记、历史事件、新闻和科学发现等多篇文章的新颖数据集。我们使用该数据集来衡量 LLMs 从文本中提取和排序关键事件的能力,这是一个主观且复杂的挑战,需要对长程上下文进行推理和对因果链进行建模。我们评估了 Phi-4、Orca 2 和 Qwen 2.5 等小型模型,以及 Claude 3.7、Gemini 2.5 和 OpenAI o3 等大型、更强大的模型,并提出了一个框架,其中另一个 LLM 充当评判者,根据模型选择和分类事件的方式来推断其个性。我们的分析显示了不同的个性特征:例如,Orca 2 表现出侧重于人际动态的情感推理,而 Qwen 2.5 则展现出更具战略性的分析风格。在分析科学发现事件时,Claude Sonnet 3.7 强调概念框架,Gemini 2.5 Pro 优先考虑经验验证,而 o3 则偏好逐步的因果推理。这项分析提高了模型的可解释性,使其更易于用户在广泛多样的应用中使用。
查看 arXiv 页面查看 PDF

评论