【论文笔记】The Power of Scale for Parameter-Efficient Prompt Tuning

基本信息

标题: The Power of Scale for Parameter-Efficient Prompt Tuning
作者: Brian Lester, Rami Al-Rfou, Noah Constant
发表: EMNLP 2021
arXiv: https://arxiv.org/abs/2104.08691

基本信息

摘要

在这项工作中,我们探讨了“prompt tuning”,这是一种简单而有效的机制,用于学习“soft prompt”以条件化冻结的语言模型执行特定下游任务。

与GPT-3使用的离散文本提示不同,soft prompt是通过反向传播学习的,并且可以调整以包含来自任意数量token示例的信号。

我们端到端的学习方法在少样本学习方面优于GPT-3。

更令人惊讶的是,通过使用T5在模型大小上的消融实验,我们表明提示微调在规模上变得更加具有竞争力:当模型超过数十亿参数时,我们的方法缩小了差距并匹配了模型微调(所有模型权重都进行调整)的强大性能。

这一发现尤其相关,因为大型模型成本高昂且难以共享和部署,而能够重复使用一个冻结模型执行多个下游任务可以减轻这一负担。

我们的方法可以看作是Li和Liang最近提出的“prefix tuning”的简化,我们提供了与这一方法和其他类似方法的比较。

最后,我们表明,使用soft prompt条件化冻结模型可以带来在领域迁移中的鲁棒性优势,并使“prompt ensembling”变得高效。我们发布了代码和模型检查点以重现我们的实验。

Standard model tuning of T5 achieves strong performance, but requires storing separate copies of the model for each end task

prompt tuning、全量微调、使用GPT-3生成提示词三种方法之间的比较。

主要贡献

  1. 提出了prompt tuning,并展示了其在大型语言模型调整机制中的竞争力。
  2. 对许多设计选择进行了消融,并展示质量与鲁棒性随规模提升而提高。
  3. 展示了prompt tuning优于全量微调在领域迁移问题上的表现。
  4. 提出了“prompt ensembling”并展示其有效性。

Prompt Tuning

Model tuning requires making a taskspecific copy of the entire pre-trained model for each downstream task and inference must be performed in separate batches

prompt tuning只需要为每个下游任务训练一个soft prompt,而全量微调需要训练整个模型。

给定一系列nn 个token,{x1,x2,,xn}\{x_1, x_2, \ldots, x_n\},T5 首先做的是嵌入这些token,形成一个矩阵XeRn×eX_e \in \mathbb{R}^{n \times e},其中ee 是嵌入空间的维度。soft prompt被表示为一个参数PeRp×eP_e \in \mathbb{R}^{p \times e},其中pp 是prompt的长度。然后,soft prompt被连接到嵌入的输入上,形成一个单一的矩阵[Pe;Xe]R(p+n)×e[P_e; X_e] \in \mathbb{R}^{(p+n) \times e},然后像往常一样通过编码器-解码器。训练模型以最大化YY 的概率,但只有prompt参数PeP_e 被更新。

Prompt Ensemble

对一个下游任务训练多个Prompt,然后集成多个Prompt而不是多个模型。

实验

Ablations of various hyperparameters on prompt tuning performance (mean and stddev across 3 runs)

各种超参数对prompt tuning性能的影响。

Parameter usage of various adaptation techniques, fixing architecture to T5 1.1 and prompt/prefix length to 1–100 tokens (bands show mean and stddev)

与其他相似方法的比较。在具有可学习参数的方法中,提示调整是最参数高效的,对于超过十亿参数的模型,只需要不到0.01%的任务特定参数。

F1 mean and stddev for models trained on SQuAD and evaluated on out-of-domain datasets from the MRQA 2019 shared task

Mean and stddev of zero-shot domain transfer between two paraphrase detection tasks

领域迁移问题上的表现。

Performance of a five-prompt ensemble built from a single frozen T5-XXL model exceeds both the average and the best among the five prompts

prompt ensemble与prompt平均性能以及单个最好性能的比较。

总结

在这篇论文中,我们展示了prompt tuning是一种将冻结预训练语言模型适应下游任务的竞争性技术。

在流行的SuperGLUE基准上,其任务性能与传统模型调整相当,随着模型规模的增加,差距逐渐消失。

在零样本领域迁移中,我们发现prompt tuning导致了更好的泛化。这很可能表明,冻结通用语言理解参数并将下游学习限制在轻量级参数足迹内,有助于避免对特定领域的过度拟合。

除了任务质量指标之外,我们还讨论了转向冻结预训练模型在存储和服务器成本方面的吸引力。这一举措既实现了高效的多任务服务,也实现了高效的高性能提示集成。

展望未来,我们认为将任务定义参数与通用语言模型参数区分开来是一个令人兴奋的步骤,它为新的研究开辟了许多途径。