⏶2
通过因果表示学习发现语言模型的分层潜在能力
发表
由
hlzhang109 提交
作者: Jikai Jin, Vasilis Syrgkanis, Sham Kakade, Hanlin Zhang
摘要
忠实地评估语言模型能力对于得出可指导模型开发的实用见解至关重要。然而,该领域严格的因果评估面临重大的方法论挑战,包括复杂的混杂效应以及大量再训练带来的高昂计算成本。为了应对这些挑战,我们提出了一个因果表示学习框架,其中观察到的基准性能被建模为少数潜在能力因素的线性变换。至关重要的是,在适当控制作为共同混杂因素的基础模型后,这些潜在因素被确定为具有因果关联。将这种方法应用于一个综合数据集,该数据集涵盖了在 Open LLM Leaderboard 的六个基准上评估的 1500 多个模型,我们识别出一个简洁的三节点线性因果结构,该结构可靠地解释了观察到的性能差异。对该因果结构的进一步解释提供了超越简单数值排名的重要科学见解:具体而言,我们揭示了一个清晰的因果方向,从通用问题解决能力开始,通过指令遵循熟练度进展,最终达到数学推理能力。我们的结果强调了在评估过程中仔细控制基础模型变异性的重要作用,这一步骤对于准确揭示潜在模型能力之间的潜在因果关系至关重要。
博客文章:https://hanlin-zhang.com/causal-capabilities