⏶6
通过Transformer潜在子空间激活引导概念偏差
发表
由
Vansh Sharma 提交
作者:
Vansh Sharma, Venkat Raman
摘要
这项工作探讨了在语言模型 (LLM) 中激活潜在子空间是否能引导科学代码生成偏向特定的编程语言。首先对五个因果 LLM 在科学编码提示上进行评估,以量化它们在四种编程语言之间的基线偏差。一种静态神经元归因方法,即扰动 C++ 或 CPP 令牌的最高激活 MLP 权重,被证明是脆弱的,并且在不同的提示风格和模型规模上泛化能力有限。为了解决这些局限性,开发了一种梯度优化的自适应激活引导框架 (G-ACT):每个提示的激活差异被聚类成一小组引导方向,并在线训练和优化轻量级逐层探针以选择合适的引导向量。在 LLaMA-3.2 3B 中,与标准 ACT 框架相比,这种方法通过将平均探针分类准确率提高 15%,以及将早期层(0-6)的探针分类准确率提高 61.5%,从而可靠地使生成偏向 CPP 语言。对于 LLaMA-3.3 70B,尽管注意力头信号变得更加分散,但在关键层进行有针对性的注入仍然能改善语言选择。尽管逐层探测会引入适度的推理开销,但通过仅引导部分层,它仍然是实用的,并能实现可复现的模型行为。这些结果展示了一种可扩展、可解释且高效的机制,用于对实用智能体系统进行概念级控制。
评论
论文作者
论文提交者