【论文笔记】LoRA: Low-Rank Adaptation of Large Language Models

基本信息

标题: LoRA: Low-Rank Adaptation of Large Language Models
作者: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen
发表: ICLR 2022
arXiv: https://arxiv.org/abs/2106.09685

基本信息

摘要

自然语言处理的一个重要范例是在通用领域数据上进行大规模预训练,并适应特定任务或领域。

随着我们预训练更大规模的模型,全量微调,即重新训练所有模型参数,变得越来越不可行。

以GPT-3 175B为例——部署独立实例的微调模型,每个模型都有175B个参数,成本过高。

我们提出了低秩适应,或称LoRA,它冻结预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层,极大地减少了下游任务的可训练参数数量。

与使用Adam微调的GPT-3 175B相比,LoRA可以将可训练参数数量减少10,000倍,并将GPU内存需求减少3倍。

尽管LoRA的可训练参数更少,训练吞吐量更高,并且与adapter不同,没有额外的推理延迟,但它在RoBERTa、DeBERTa、GPT-2和GPT-3上的模型质量与微调相当甚至更好。

我们还对语言模型适应中的秩不足进行了实证研究,这有助于了解LoRA的有效性。

我们发布了一个包,用于将LoRA与PyTorch模型集成,并在https://github.com/microsoft/LoRA上提供了我们的实现和RoBERTa、DeBERTa和GPT-2的模型检查点。

方法

现有方法的缺点

Adapter Layers Introduce Inference Latency

在Infernece latency of a single forward pass in GPT-2 medium measured in milliseconds, averaged over 100 trials

使用Adapter会引入推理延迟。

Directly Optimizing the Prompt is Hard

我们观察到prefix tuning难以优化,并且其性能在可训练参数中非单调地变化,这与原始论文中的观察结果相似。更基本的是,为适应保留一部分序列长度必然减少可用于处理下游任务的序列长度,这使我们怀疑微调prompt的性能不如其他方法。

LoRA

神经网络包含许多密集层,这些层执行矩阵乘法。这些层的权重矩阵通常具有满秩。

当适应特定任务时,Aghajanyan等人表明,预训练的语言模型具有较低的“内在维度”,即使在随机投影到较小的子空间后,仍能高效地学习。

受此启发,我们假设权重更新在适应过程中也具有较低的“内在秩”。

LoRA

对于预训练权重矩阵W0Rd×kW_0 \in \mathbb{R}^{d \times k},我们通过将后者表示为低秩分解W0+ΔW=W0+BAW_0 + \Delta W = W_0 + BA 来约束其更新,其中BRd×rB \in \mathbb{R}^{d \times r}ARr×kA \in \mathbb{R}^{r \times k},且秩rr 满足rmin(d,k)r \leq \min(d, k)。在训练过程中,W0W_0 被冻结,不接收梯度更新,而AABB 包含可训练参数。注意W0W_0ΔW=BA\Delta W = BA 都与相同的输入相乘,并且它们的输出向量在坐标上相加。对于h=W0xh = W_0x,我们修改的前向传递结果为:

h=W0x+ΔWx=W0x+BAxh = W_0x + \Delta Wx = W_0x + BAx

我们使用随机高斯初始化AA 和零初始化BB,因此训练开始时ΔW=BA\Delta W = BA 为零。然后我们将ΔWx\Delta W xαr\frac{\alpha}{r} 缩放,其中α\alpharr 中的常数。在Adam优化中,如果我们适当地缩放初始化,调整α\alpha 大致等同于调整学习率。因此,我们只需将α\alpha 设置为尝试的第一个rr,而不对其进行调整。这种缩放有助于减少我们在改变rr 时重新调整超参数的需求。

优势

  • 预训练模型可以共享并用于构建针对不同任务的许多小型LoRA模块。我们可以冻结共享模型,并通过替换矩阵A和B来高效切换任务,显著降低存储需求和任务切换开销。
  • LoRA通过使用自适应优化器使训练更加高效,并将硬件门槛降低了3倍,因为我们不需要计算大多数参数的梯度或维护优化器状态。相反,我们只优化注入的、远小得多的低秩矩阵。
  • 我们的简单线性设计使我们能够在部署时将可训练矩阵与冻结权重合并,与完全微调的模型相比,在构造上引入了零推理延迟。
  • LoRA与许多先前的方法正交,可以与其中许多方法结合,例如prefix-tuning。

实验

RoBERTabase, RoBERTalarge, and DeBERTaXXL with different adaptation methods on the GLUE benchmark

GPT-2 medium (M) and large (L) with different adaptation methods on the E2E NLG Challenge

Performance of different adaptation methods on GPT-3 175B

GPT-3 175B validation accuracy vs. number of trainable parameters of several adaptation methods on WikiSQL and MNLI-matched. LoRA exhibits better scalability and task performance