【论文笔记】Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

小嗷犬2024-10-112025-01-05

基本信息

标题: Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation
作者: Zhigang Chen, Benjia Zhou, Jun Li, Jun Wan, Zhen Lei, Ning Jiang, Quan Lu, Guoqing Zhao
发表: LREC-COLING 2024
arXiv: https://arxiv.org/abs/2403.12556

摘要

先前的手语翻译（SLT）方法通过依赖gloss注释实现卓越的性能。然而，标注高质量gloss是一项劳动密集型任务，这限制了SLT的进一步发展。

尽管一些方法通过联合训练视觉编码器和翻译网络来追求gloss-free SLT，但这些努力仍然存在性能不佳和利用强大的大语言模型（LLM）不足的问题。

最严重的是，我们发现直接将LLM引入SLT会导致视觉表示学习不足，因为LLM主导了学习曲线。

为了解决这些问题，我们提出了Factorized Learning assisted with Large Language Model (FLa-LLM)用于gloss-free SLT。

具体来说，我们将训练过程分解为两个阶段。在视觉初始化阶段，我们在视觉编码器之后采用轻量级翻译模型来预训练视觉编码器。在LLM微调阶段，我们冻结视觉编码器中获得的认知，并将其与预训练的LLM集成，以激发LLM的翻译潜力。

这种分解训练策略已被证明非常有效，这从三个SLT数据集的显著改进中可以看出，这些改进都是在gloss-free设置下进行的。

主要贡献

我们分析了在gloss-free SLT中直接训练视觉编码器和LLM失败的原因，并提出了FLa-LLM来解决这一问题。据我们所知，这是LLM在gloss-free SLT上的首次成功尝试。
FLa-LLM方法将训练过程分解为两个不同的阶段，即视觉初始化阶段和LLM微调阶段。这种划分有助于减轻大型语言模型（LLM）对视觉表示学习的负面影响。此外，它还允许我们在低成本的条件下利用LLM在SLT中的辅助作用，从而提高翻译性能。
我们的方法极大地提升了glossfree SLT的性能。具体来说，与之前的最先进方法相比，我们在PHOENIX14T上提高了1.65的BLEU-4分数，在CSL-Daily上提高了3.20，在How2Sign上提高了1.63。

不同框架下Gloss-Based和Gloss-Free方法的LLM性能。
第一行展示了Gloss-Based方法的LLM的性能。
第二行和第三行展示了我们在实验中使用的Gloss-Free方法的LLM性能。BLEU-4分数是在PHOENIX-2014T测试集上获得的。

动机

在端到端联合训练视觉编码器和LLM时，视觉编码器最后一层和LLM最后一层的梯度范数和参数范数。

LLM最后一层的梯度范数始终大于视觉编码器最后一层的梯度范数。同时，LLM最后一层的参数范数的变化比视觉编码器最后一层更为剧烈。

这表明模型的主要更新在于LLM模块，即LLM主导了SLT训练过程。

方法

整体架构

Vision Backbone: ResNet-18(ImageNet)
Local Temporal module: Conv1D-BN-Relu
VL-Adapter & LLM-Adapter: MLP with one hidden layer
Light-T: Transformer(3 layers)
LLM: MBart-large-cc25

LLM-Adapter替换掉MBart Encoder的Word Embedding Layer

MBart: a standard Transformer architecture with 12 layers of the encoder and 12 layers of the decoder. (680M)
GPU: NVIDIA GeForce RTX 3090 * 2