【论文笔记】Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation

基本信息

标题: Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation
作者: Ryan Wong, Necati Cihan Camgoz, Richard Bowden
发表: ICLR2024
arXiv: https://arxiv.org/abs/2405.04164

基本信息

摘要

自动手语翻译需要整合计算机视觉和自然语言处理技术,以有效弥合手语和口语之间的沟通鸿沟。然而,由于大规模训练数据支持手语翻译的不足,我们需要利用口语资源。

我们提出了一种新颖的手语翻译框架,名为Sign2GPT,它通过轻量级适配器利用大规模预训练的视觉和语言模型,实现gloss-free手语翻译。轻量级适配器对于手语翻译至关重要,因为它们克服了有限数据集大小和训练长手语视频时的计算需求。

我们还提出了一种新的预训练策略,该策略指导我们的编码器从自动提取的伪gloss中学习手语表示,而无需gloss顺序信息或标注。

我们在两个公开的手语翻译基准数据集上评估了我们的方法,即RWTH-PHOENIX-Weather 2014T和CSL-Daily,并在gloss-free翻译性能方面取得了显著的改进。

主要贡献

  1. 我们提出了一种端到端的gloss-free手语模型Sign2GPT,专为手语翻译设计,利用冻结的GPT语言模型。
  2. 我们提出了一种新颖的伪gloss预训练策略,利用从句子中自动提取的伪gloss来预训练手语编码器。
  3. Sign2GPT在gloss-free手语翻译方面相较于以往的方法表现出显著的性能提升,为将冻结的语言和视觉模型应用于手语翻译领域提供了有希望的途径。

方法

模型架构

Sign2GPT

Spatial Model: Dino-V2(一种ViT-S/14的变体)
Sign Encoder: mean pooling(size=3, stride=2) + local self-attention(size=7)
Language Encoder: XGLM-1.7B(一种多语言GPT)

Sign Encoder的输出还要经过一个线性层变换维度再输入给Language Encoder。

Adapted Layer

GatedAttention(Q,K,V)=(g×softmax(QKTdk))V\operatorname{GatedAttention}(Q,K,V)=\left(\boldsymbol{g}\times\operatorname{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)\right)V

K,VK, V 来自 Sign Features,QQ 来自 Textual Features,g\boldsymbol{g} 为可学习参数(对于每个注意力头)。

训练

Pseudo-gloss generation

对数据集的口语文本进行词形还原(Phoenix14T)和分词(CSLDaily),然后根据词性保留部分词(名词、数词、副词、代词、专有名词、形容词、动词)作为伪gloss。

由于这样得到的伪gloss为口语顺序而不是手语顺序,所以无法直接使用CTC损失训练模型。

Pseudo-gloss pretraining

Pseudo-gloss pretraining

将从数据集提取出的UU 个伪gloss嵌入为DD 维的原型,用于与TT 帧的视频进行相似度计算,最后按视频整合其每一帧的相似度,以此预测视频包含该原型的可能性,最后对每个原型使用二分类交叉熵进行训练。

  • 🔥 Sign Encoder
  • ❄️ Spatial Model

Fine-tuning

手语翻译任务微调。

  • 🔥 Spatial Model LoRA、Sign Encoder、GPT LoRA
  • ❄️ Spatial Model、GPT

实验

(a)预训练伪gloss数量与(b)下游翻译可训练参数数量

主实验

Phoenix14T上的结果

Phoenix14T上的结果。

PGP: 伪gloss预训练(pseudo-gloss pretraining)

CSL-Daily上的结果

CSL-Daily上的结果。

消融实验

消融实验

其他

伪gloss在视频中出现位置的可视化

伪gloss在视频中出现位置的可视化。

总结

在这篇论文中,我们提出了一种新的方法来解决gloss-free环境下手语翻译的难题。

我们的方法Sign2GPT在Phoenix14T和CSL-Daily数据集上,相较于现有最先进的技术,展现了显著的性能提升。

我们引入了一种新的预训练策略,通过自动生成的伪gloss学习词汇级的手语特征,从而使得我们的手语编码器能够在不使用人工标注的gloss的情况下进行有效预训练。

此外,所提出的Sign2GPT架构为探索将视觉特征融合到口语语言模型中,以用于手语识别和翻译任务提供了有前景的方向。