【论文笔记】P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

基本信息

标题: P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
作者: Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Lam Tam, Zhengxiao Du, Zhilin Yang, Jie Tang
发表: ACL 2022
arXiv: https://arxiv.org/abs/2110.07602

基本信息

摘要

Prompt tuning,仅对冻结的语言模型进行连续提示调整,在训练过程中显著降低了每个任务的存储和内存使用。

然而,在自然语言理解(NLU)的背景下,先前的研究表明,Prompt tuning对于正常规模的预训练模型表现不佳。

我们还发现,现有的Prompt tuning方法无法处理困难的序列标注任务,这表明其缺乏通用性。

我们提出一个新颖的实证发现,经过适当优化的Prompt tuning可以在广泛的模型规模和NLU任务中普遍有效。

它在只有0.1%-3%调整参数的情况下,与微调的性能相匹配。

我们的方法P-Tuning v2是对Deep Prompt Tuning的优化,适用于NLU。

鉴于P-Tuning v2的通用性和简洁性,我们相信它可以作为微调的替代方案,并为未来的研究提供一个强大的基线。

方法

先前方法的缺陷

Lack of universality across scales

Lester等人(2021年)表明,当模型扩展到超过100亿参数时,prompt tuning可以与微调相当。然而,对于广泛使用的中等规模模型(从1亿到10亿),prompt tuning的表现远不如微调。

Lack of universality across tasks

prompt tuning在困难序列标注任务上的有效性尚未得到验证。序列标注为每个输入标记预测一个标签序列,这可能比Verbalizer更困难且不兼容。

Deep Prompt Tuning

Deep Prompt Tuning

如图2(a)所示,P-tuning的连续提示仅插入到输入嵌入序列中。

这导致两个挑战:

  1. 由于序列长度的限制,可调参数的数量有限。
  2. 输入嵌入对模型预测的影响相对间接。

为了应对这些挑战,P-tuning v2采用了Deep Prompt Tuning的理念。如图2(b)所示,不同层的提示被添加为前缀标记。

一方面,P-tuning v2拥有更多可调的任务特定参数(从0.01%到0.1%-3%),在保持参数效率的同时允许更多的任务容量;另一方面,添加到深层的提示对模型预测有更直接的影响。

优化与实现

重参数化

先前的工作通常利用重参数化编码器,如MLP来转换可训练嵌入。

然而,对于NLU,我们发现其有效性取决于任务和数据集。

对于某些数据集,MLP带来了持续的提升;而对于其他数据集,MLP对结果的影响最小甚至为负。

提示长度

提示长度在P-Tuning v2中起着至关重要的作用。

我们发现,不同的NLU任务通常在不同的提示长度下达到最佳性能。

一般来说,简单的分类任务偏好较短的提示(少于20个);困难的序列标注任务偏好较长的提示(大约100个)。

多任务学习

多任务学习在微调单个任务之前,通过共享连续提示联合优化多个任务。

对于P-Tuning v2,多任务学习是可选的,但可以通过提供更好的初始化来进一步提升性能。

分类头

使用语言模型头部来预测verbalizer对于提示调整至关重要,但我们在全数据集设置中发现它是不必要的,并且与序列标注不兼容。

P-tuning v2则是在BERT的基础上,对标记应用随机初始化的分类头部,如图2所示。

为了阐明P-tuning v2的主要贡献,我们在表1中对其与现有提示调整方法进行了概念比较。

Conceptual comparison between P-tuning v2 and existing Prompt Tuning approaches

实验

主实验

Results on SuperGLUE development set. P-tuning v2 surpasses P-tuning & Lester et al. (2021) on models smaller than 10B, matching the performance of fine-tuning across different model scales

Results on Named Entity Recognition (NER), Question Answering (Extractive QA), and Semantic Role Labeling (SRL). All metrics in NER and SRL are micro-f1 score

消融实验

Comparison between [CLS] label with linear head and verbalizer with LM head on RoBERTa-large

Ablation study on prompt depth using BERTlarge

总结

我们提出P-tuning v2,一种提示调整方法。尽管其技术新颖性相对有限,但它带来了一项新发现,即提示调整可以在不同规模(从3.3亿到100亿参数)和任务中与微调相媲美。

P-tuning v2具有高精度和参数效率,可能成为微调的潜在替代品,并为未来的研究提供一个强大的基线。