其中 是 的第 个奇异值。正如我们所见,QLoRA 的量化误差与直接量化基模型的误差相同。然而,我们的QPiSSA 不量化基模型而是残差模型。因此,其误差由下式给出:
由于残差模型已经去除了大奇异值成分,因此 的分布比 更窄,如图3a和3b所示(比较 和 的奇异值分布),以及图3c和3f所示(比较 和 的值分布),这对减少量化误差是有益的。此外,由于NF4针对正态分布数据进行了优化,我们分别为 和 的值拟合了一个高斯分布。如图3c和3f所示, 更像高斯分布,并且标准差更小,这使得将NF4应用于 而不是 更为合适。上述两点使QPiSSA相比QLoRA显著降低了量化误差,如图3d和3e所示。
除了减少量化误差的优势外,QPiSSA的梯度方向与PiSSA相似,与QLoRA相比,显著提高了微调性能。
本文提出了一种PEFT技术,将奇异值分解(SVD)应用于预训练模型的权重矩阵。从SVD中获得的特征值用于初始化一个低秩适配器PiSSA,而残差值则保持冻结,以同时实现有效的微调和参数效率。通过大量实验,我们发现PiSSA及其4位量化版本QPiSSA在NLG和NLU任务中,在不同训练步骤、各种模型大小和类型以及不同数量的可训练参数下,都显著优于LoRA和QLoRA。PiSSA通过识别和微调模型内的主成分,为PEFT研究提供了新的方向,类似于切割并重新烘烤披萨中最丰富的部分。由于PiSSA与LoRA具有相同的架构,它可以无缝地用于现有的LoRA管道,作为一种高效的初始化方法。