【论文笔记】Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

基本信息

标题: Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation
作者: Zhigang Chen, Benjia Zhou, Jun Li, Jun Wan, Zhen Lei, Ning Jiang, Quan Lu, Guoqing Zhao
发表: LREC-COLING 2024
arXiv: https://arxiv.org/abs/2403.12556

基本信息

摘要

先前的手语翻译(SLT)方法通过依赖gloss注释实现卓越的性能。然而,标注高质量gloss是一项劳动密集型任务,这限制了SLT的进一步发展。

尽管一些方法通过联合训练视觉编码器和翻译网络来追求gloss-free SLT,但这些努力仍然存在性能不佳和利用强大的大语言模型(LLM)不足的问题。

最严重的是,我们发现直接将LLM引入SLT会导致视觉表示学习不足,因为LLM主导了学习曲线。

为了解决这些问题,我们提出了Factorized Learning assisted with Large Language Model (FLa-LLM)用于gloss-free SLT。

具体来说,我们将训练过程分解为两个阶段。在视觉初始化阶段,我们在视觉编码器之后采用轻量级翻译模型来预训练视觉编码器。在LLM微调阶段,我们冻结视觉编码器中获得的认知,并将其与预训练的LLM集成,以激发LLM的翻译潜力。

这种分解训练策略已被证明非常有效,这从三个SLT数据集的显著改进中可以看出,这些改进都是在gloss-free设置下进行的。

主要贡献

  • 我们分析了在gloss-free SLT中直接训练视觉编码器和LLM失败的原因,并提出了FLa-LLM来解决这一问题。据我们所知,这是LLM在gloss-free SLT上的首次成功尝试。
  • FLa-LLM方法将训练过程分解为两个不同的阶段,即视觉初始化阶段和LLM微调阶段。这种划分有助于减轻大型语言模型(LLM)对视觉表示学习的负面影响。此外,它还允许我们在低成本的条件下利用LLM在SLT中的辅助作用,从而提高翻译性能。
  • 我们的方法极大地提升了glossfree SLT的性能。具体来说,与之前的最先进方法相比,我们在PHOENIX14T上提高了1.65的BLEU-4分数,在CSL-Daily上提高了3.20,在How2Sign上提高了1.63。

不同框架下Gloss-Based和Gloss-Free方法的LLM性能

不同框架下Gloss-Based和Gloss-Free方法的LLM性能。
第一行展示了Gloss-Based方法的LLM的性能。
第二行和第三行展示了我们在实验中使用的Gloss-Free方法的LLM性能。BLEU-4分数是在PHOENIX-2014T测试集上获得的。

动机

在端到端联合训练视觉编码器和LLM时,视觉编码器最后一层和LLM最后一层的梯度范数和参数范数

在端到端联合训练视觉编码器和LLM时,视觉编码器最后一层和LLM最后一层的梯度范数和参数范数。

LLM最后一层的梯度范数始终大于视觉编码器最后一层的梯度范数。同时,LLM最后一层的参数范数的变化比视觉编码器最后一层更为剧烈。

这表明模型的主要更新在于LLM模块,即LLM主导了SLT训练过程。

方法

整体架构

整体架构

  • Vision Backbone: ResNet-18(ImageNet)
  • Local Temporal module: Conv1D-BN-Relu
  • VL-Adapter & LLM-Adapter: MLP with one hidden layer
  • Light-T: Transformer(3 layers)
  • LLM: MBart-large-cc25

LLM-Adapter替换掉MBart Encoder的Word Embedding Layer

MBart: a standard Transformer architecture with 12 layers of the encoder and 12 layers of the decoder. (680M)
GPU: NVIDIA GeForce RTX 3090 * 2

Visual Initialing

  • 🔥 Vision Encoder、VL-Adapter、Light-T
  • ❄️ None

LLM Fine-tuning

  • 🔥 LLM-Adapter、LLM
  • ❄️ Vision Encoder

实验

主实验

在PHOENIX14T数据集上的实验结果

在PHOENIX14T数据集上的实验结果。

在CSL-daily数据集上的实验结果

在CSL-daily数据集上的实验结果。

我们的方法与gloss-based的方法之间存在很大差距。这可能是由于手语词词汇量的规模。CSL-daily的手语词词汇量超过2K,导致对gloss的依赖性更强。

在How2Sign数据集上的实验结果

在How2Sign数据集上的实验结果。

消融实验

所有的消融实验都是在PHOENIX14T数据集上做的。

Factorized Learning消融

Factorized Learning消融。

  • 第一行: 🔥 Vision Encoder、LLM-Adapter、LLM
  • 第二行: FLa-LLM

每个训练阶段的影响

每个训练阶段的影响。

  • 第一行
    • 🔥 Local Temporal module、LLM-Adapter、LLM
    • ❄️ Vision Backbone
  • 第二行
    • Vision Encoder & Light-T
  • 第三行
    • All

视频采样率的影响

视频采样率的影响。

"Time"列为完成Visual Initialing训练所需的时间。

Light-T规模的影响

Light-T规模的影响。

没什么影响,说明Visual Initialing训练阶段主要关注的是Vision Encoder。

Visual Initialing训练不同轮次的影响

Visual Initialing训练不同轮次的影响。

无论Visual Initialing训练几轮LLM Fine-tuning总能提升翻译效果。100 Epoch的时候出现性能下降,可能是因为过拟合。

不同输入特征的影响

不同输入特征的影响。

  • Frame-wise: Vision Backbone后
  • Sign-wise: Local Temporal module后
  • Hidden states: Light-T Encoder后

LLM fine-tuning阶段冻结不同部分的影响

LLM fine-tuning阶段冻结不同部分的影响。

  • VB: Vision Backbone
  • TM: Local Temporal module

不同LLM的影响

不同LLM的影响。

总结

本文提出了一种分解学习策略,用于将LLM应用于Gloss-Free SLT。

在视觉初始化阶段,我们使用轻量级翻译模型在无Gloss监督下预训练视觉编码器。

在LLM微调阶段,我们冻结已良好初始化的视觉编码器,并微调一个强大的LLM以适应下游SLT任务。

通过将训练分为两个阶段,我们避免了性能下降,并在资源友好情况下利用LLM。

我们的方法显著提高了多个数据集上Gloss-Free SLT的性能。