⏶3
基于正交等价变换的重新参数化大语言模型训练
发表
由
Weiyang Liu 提交

作者: Zeju Qiu, Simon Buchholz, Tim Z. Xiao, Maximilian Dax, Bernhard Schölkopf, Weiyang Liu
摘要
虽然大型语言模型(LLM)正在推动人工智能的快速发展,但有效且可靠地训练这些大型模型仍然是该领域最重大的挑战之一。为了应对这一挑战,我们提出了POET,这是一种新颖的重参数化训练算法,它使用正交等价变换来优化神经元。具体来说,POET使用两个可学习的正交矩阵和一个固定的随机权重矩阵对每个神经元进行重参数化。由于其可证明地保留了权重矩阵的谱特性,POET能够稳定地优化目标函数并提升泛化能力。我们进一步开发了高效的近似方法,使POET在训练大规模神经网络时具有灵活性和可扩展性。大量实验验证了POET在训练大型语言模型方面的有效性和可扩展性。
https://spherelab.ai/poet/