⏶6

通过Transformer潜在子空间激活引导概念偏差

06月23日发表

06月24日由 Vansh Sharma 提交

作者: Vansh Sharma, Venkat Raman

摘要

这项工作探讨了在语言模型 (LLM) 中激活潜在子空间是否能引导科学代码生成偏向特定的编程语言。首先对五个因果 LLM 在科学编码提示上进行评估，以量化它们在四种编程语言之间的基线偏差。一种静态神经元归因方法，即扰动 C++ 或 CPP 令牌的最高激活 MLP 权重，被证明是脆弱的，并且在不同的提示风格和模型规模上泛化能力有限。为了解决这些局限性，开发了一种梯度优化的自适应激活引导框架 (G-ACT)：每个提示的激活差异被聚类成一小组引导方向，并在线训练和优化轻量级逐层探针以选择合适的引导向量。在 LLaMA-3.2 3B 中，与标准 ACT 框架相比，这种方法通过将平均探针分类准确率提高 15%，以及将早期层（0-6）的探针分类准确率提高 61.5%，从而可靠地使生成偏向 CPP 语言。对于 LLaMA-3.3 70B，尽管注意力头信号变得更加分散，但在关键层进行有针对性的注入仍然能改善语言选择。尽管逐层探测会引入适度的推理开销，但通过仅引导部分层，它仍然是实用的，并能实现可复现的模型行为。这些结果展示了一种可扩展、可解释且高效的机制，用于对实用智能体系统进行概念级控制。

查看 arXiv 页面查看 PDF

Vansh Sharma

论文作者

论文提交者

Screenshot 2025-06-23 at 1.21.04 PM.png

通过Transformer潜在子空间激活引导概念偏差

摘要

评论