【论文笔记】Visual Alignment Pre-training for Sign Language Translation

基本信息

标题: Visual Alignment Pre-training for Sign Language Translation
作者: Peiqi Jiao, Yuecong Min, Xilin Chen
发表: ECCV 2024

基本信息

摘要

手语翻译(Sign Language Translation, SLT)旨在将手语视频翻译为文本句子。

尽管gloss序列为SLT中的视觉表征学习提供了有效的对齐监督信息,但标注gloss的高成本限制了其可扩展性。

现有工作在gloss-free的情况下尚未取得令人满意的结果。

在本研究中,我们将这一挑战归因于视觉token和文本token之间的灵活对应关系,并通过从文本句子中构建类似gloss的约束来解决这一问题。

具体而言,我们提出了一种**视觉对齐预训练(Visual Alignment Pre-training, VAP)**方案,通过以贪婪的方式对齐视觉和文本token来利用视觉信息。

VAP方案增强了视觉编码器捕获语义感知视觉信息的能力,并促进了与在大规模语料库上预训练的翻译模块的更好适配。

针对四个SLT基准的实验结果证明了VAP的有效性,能够生成合理的对齐,并显著缩小与gloss-based方法之间的性能差距。

介绍

Illustration of the alignment generated by VAP for a given sign video and its text sentence

主要贡献

  • 探讨了gloss annotation在手语翻译(SLT)中的作用,并展示了在gloss-free设置下利用视觉信息的重要性。
  • 提出了视觉对齐预训练(Visual Alignment Pre-training, VAP),通过以贪婪的方式对齐视觉和文本token来促进视觉表征学习。
  • 对gloss-free的SLT模型训练进行了深入的实验。实验结果表明,VAP具有良好的效果,能够生成可靠的对齐结果,并接近gloss-based的方法。

方法

Overview of the proposed visual alignment pre-training

gloss标注在手语翻译中的作用

手语翻译旨在将手语视频翻译为对应的文本句子。如图2所示,通用的SLT网络可以划分为一个视觉编码器ψV\psi_V 和一个翻译模块ψT\psi_T。给定一个手语视频或其他类型的输入(例如,骨架数据)X\mathcal{X} 和对应的文本句子s={s1,,sU}s = \{s_1, \cdots, s_U\}ψV\psi_V 从视频中提取视觉特征V={v1,,vr}\mathcal{V} = \{v_1, \cdots, v_r\},而ψT\psi_T 基于V\mathcal{V} 预测ss。网络通过最小化负对数似然来优化,其公式为:

LSLT=logp(sV;θψV,θψT).\mathcal{L}_{SLT} = -\log p(s | \mathcal{V}; \theta_{\psi_V}, \theta_{\psi_T}).

在自然语言处理(NLP)中,单词对齐通常指的是在平行文本中指示对应单词a={ai}i=1ma = \{a_i\}_{i=1}^mb={bj}j=1nb = \{b_j\}_{j=1}^n 的过程,可以表示为矩阵ARm×n\mathcal{A} \in \mathbb{R}^{m \times n},其中Aij{0,1}A_{ij} \in \{0, 1\} 表示aia_i 是否与bjb_j 对应。考虑到V\mathcal{V}ss 之间的对齐关系A\mathcal{A},最近gloss-based的SLT研究中使用的损失函数可以重新表述为:

L=LSLT+LSLR=logAp(AV)p(sV,A)logp(gV),\mathcal{L} = \mathcal{L}_{SLT} + \mathcal{L}_{SLR} = -\log \sum_{\mathcal{A}} p(\mathcal{A} | \mathcal{V}) p(s | \mathcal{V}, \mathcal{A}) - \log p(g | \mathcal{V}),

其中g={g1,,gM}g = \{g_1, \cdots, g_M\} 表示包含MM 个gloss的gloss标注,它与V\mathcal{V} 单调对齐。如上文公式所示,LSLT\mathcal{L}_{SLT} 的监督来自两个方面:对齐本身和翻译与对齐的结合。gloss-based的方法通过引入额外的监督来提高视觉信息的利用率。然而,之前的gloss-free方法表现较差,主要原因在于V\mathcal{V}ss 之间的灵活对应关系,这阻碍了最佳对齐的寻找,并无法为视觉编码器提供足够的监督。

基于以上分析,我们认为解决该问题的关键在于从文本句子中构建类似gloss的约束,并提出了 视觉对齐预训练(Visual Alignment Pre-training, VAP) 方案。

视觉对齐预训练

gloss-based的传统方法通常利用CTC(连接时序分类)对ψV\psi_V 进行监督,假设ψV\psi_V 中所有的单调对齐均成立,公式如下:

LCTC(g,V)=log(p(gV;θψV))=log(πp(πV;θψV))L_{CTC}(g, V) = -\log(p(g|V; \theta_{\psi_V})) = -\log\left(\sum_{\pi}p(\pi|V; \theta_{\psi_V})\right)

其中π\pi 表示VVgg 之间的一种对齐关系。我们假设视频中每个手势的近似含义可以在对应的文本句子中找到,并尝试利用VVss 之间的对齐关系来监督ψV\psi_V。然而,VVss 之间存在多达2TU2^{T \cdot U} 种潜在的对齐方式,这对在没有适当约束的情况下(例如单调关系或gloss注解所具有的约束)识别最佳对齐关系提出了挑战。受近期视觉-语言预训练技术的启发,我们提出了一种VAP方案,用于简化对齐过程,以贪婪方式近似最佳对齐,并为视觉编码器提供逐帧标签。

具体而言,给定一个文本句子ss,我们首先使用文本编码器ψE\psi_E 提取其对应的文本特征ψE(s)\psi_E(s),然后通过两个简单的线性层将VVψE(s)\psi_E(s) 投影到一个联合特征空间:

v~t=Linear(vt),s~u=Linear(ψE(su)).\tilde{v}_t = \text{Linear}(v_t), \quad \tilde{s}_u = \text{Linear}(\psi_E(s_u)).

随后,通过识别每个视觉特征与最相似的文本特征,可以计算对齐关系AV2SRT×U\mathbf{A}^{V2S} \in \mathbb{R}^{T \times U}

At,uV2S={1,for u=argmaxuf(v~t,s~u),0,otherwise.A^{V2S}_{t,u} = \begin{cases} 1, & \text{for } u = \arg\max_{u'} f(\tilde{v}_t, \tilde{s}_{u'}), \\ 0, & \text{otherwise}. \end{cases}

其中,f(,)f(\cdot, \cdot) 以余弦相似度的形式实现。为了确保AV2S\mathbf{A}^{V2S} 的合理性,我们通过以下公式计算视频和文本的相似性ρ(X,s)\rho(\mathcal{X}, s)

ρ(X,s)=1Tt=1Tf(v~t,AtV2Ss~),\rho(\mathcal{X}, s) = \frac{1}{T} \sum_{t=1}^{T} f(\tilde{v}_t, A^{V2S}_t \tilde{s}),

并采用对比学习模式优化AV2S\mathbf{A}^{V2S}。然而,仅依赖ρ(X,s)\rho(\mathcal{X}, s) 进行预训练可能会导致ψV\psi_V 的输出坍缩为一个恒定值。为了避免这种情况,我们还计算文本与视频的相似性ρ(s,X)\rho(s, \mathcal{X}),该相似性通过为每个文本特征识别最相似的视觉特征AS2V\mathbf{A}^{S2V} 来计算。

在此基础上,对于包含NN 个视频-文本对{Xi,si}i=1N\{ \mathcal{X}^i, s^i \}_{i=1}^N 的小批量,可以通过以下公式计算对比损失:

LAlign=12N(i=1Nlogexp(ρ(Xi,si)/σ)j=1Nexp(ρ(Xi,sj)/σ)+i=1Nlogexp(ρ(si,Xi)/σ)j=1Nexp(ρ(si,Xj)/σ)),L_{\text{Align}} = -\frac{1}{2N} \left( \sum_{i=1}^N \log\frac{\text{exp}(\rho(\mathcal{X}^i, s^i) / \sigma)}{\sum_{j=1}^N \text{exp}(\rho(\mathcal{X}^i, s^j) / \sigma)} + \sum_{i=1}^N \log\frac{\text{exp}(\rho(s^i, \mathcal{X}^i) / \sigma)}{\sum_{j=1}^N \text{exp}(\rho(s^i, \mathcal{X}^j) / \sigma)} \right),

其中,σ\sigma 是用于缩放logits的预定义温度。通过所提出的LAlignL_{\text{Align}},我们增大了成对的视觉和文本特征序列之间的相似性,这将鼓励每个特征找到其最相关的配对特征并靠拢。

此外,对齐的计算仅依赖于gloss级别的信息,缺乏对齐时间一致性的约束。上文公式的分解表明,翻译损失也显著增强了对齐质量。我们通过实验(表3)展示,仅通过重新初始化翻译模块就可以提升性能,这表明优化对齐过程与提升翻译能力同步进行的重要性。因此,我们将LSLTL_{\text{SLT}} 纳入进来,以确保所用翻译模块的时间一致性,从而达到对齐的时间一致性。预训练阶段的最终监督目标如下:

Lpre-train=LAlign+LSLT.L_{\text{pre-train}} = L_{\text{Align}} + L_{\text{SLT}}.

通过以上设计,我们可以计算视觉和文本token之间的近似对齐,并获得一个语义感知的视觉编码器。

端到端微调

与一般的机器翻译数据集相比,公共的手语翻译(SLT)数据集仍然规模有限。因此,我们采用在大规模语料库(如 mBART, T5)上预训练的翻译模块来替代浅层翻译模块,从而在微调过程中缓解对大量训练数据的需求。此外,类似于文献中的 G2T(Gloss2Text)任务,我们设计了一个伪gloss到文本(P2T,Pseudo-gloss2Text)任务,用于微调预训练翻译模块以更好地适应任务。

具体来说,我们可以基于对齐矩阵Av2sA^{v2s} 为每个手语视频生成一个伪gloss序列g~\tilde{g}。由于Av2sA^{v2s} 为每个视觉特征识别出最相似的文本token,而视频的连续性导致局部窗口内的特征可能会引用相同的token,我们简单地合并重复的token,通过以下公式获得g~\tilde{g}

g~=B(Av2ss),\tilde{g} = \mathcal{B}(A^{v2s}s),

其中,B\mathcal{B} 表示合并操作。P2T 的训练目标可以表述为:

LP2T=logp(sg~).\mathcal{L}_{P2T} = -\log p(s|\tilde{g}).

至此,我们已经有了预训练良好的视觉编码器和微调良好的翻译模块。接下来是对整个模型的端到端微调。我们采用一个两层的 MLP 作为视觉-语言映射器(V-L 映射器),与之前工作中相同,该模块负责将视觉特征投影到文本空间。在微调期间,我们仍然包括LAlign\mathcal{L}_{Align} 损失以持续改进视觉编码器,最终的总损失可以表示为:

Lfinetune=LAlign+LSLT.\mathcal{L}_{fine-tune} = \mathcal{L}_{Align} + \mathcal{L}_{SLT}.

对齐质量评估

在上文中,我们假设视频中每个手语的大致含义可以在文本句子中找到,并通过识别最相似的文本token来计算对齐关系。基于这一假设,生成的伪glossg~\tilde{g} 也应该与手语视频单调对齐。然而,由于不同词汇之间的差异,我们无法直接通过gloss来评估生成对齐关系的质量。因此,我们提出了两种方法来间接评估生成对齐关系的质量。

如果g~\tilde{g} 与手语视频单调对齐,它应该能够像gloss一样指导 SLT 网络的学习。因此,我们从零开始训练一个 SLT 网络,类似于大多数gloss-based的 SLT 方法,但用伪glossg~\tilde{g} 替代了gloss,其损失函数可以表述为:

L=LSLT+LCTC(g~,V),\mathcal{L} = \mathcal{L}_{SLT} + \mathcal{L}_{CTC}(\tilde{g}, V),

通过这种基于伪gloss的模型与 VAP 的性能差距可以隐式反映生成对齐关系的质量。

与通过翻译性能(如词错误率,WER)评估对齐质量相比,通过对齐性能进行评估更为直观。因此,我们提出通过在预训练中用伪gloss替换文本句子,计算生成伪gloss与对应gloss之间的 WER 来评估对齐方法的质量。换句话说,这种方法旨在检查对齐方法是否能够从无序序列中找到正确的顺序。

总的来说,所提出的方法能够评估对齐关系的质量,包括生成结果和对齐方法本身的质量。

训练与推理

训练

如图 3 所示,VAP 的训练流程包括三个阶段。

Illustration of the training pipeline of VAP

视觉编码器在第 1 阶段使用Lpre-trainL_{\text{pre-train}} 进行预训练。翻译模块基于大规模语料库进行预训练,并在第 2 阶段使用g~\tilde{g} 进行微调。最后,在第 3 阶段,整个模型使用Lfinetune\mathcal{L}_{fine-tune} 进行端到端微调。

需要注意的是,VAP 是一种gloss-free方法,gloss仅用于如上文所述的伪gloss质量评估。

推理

在经过第3阶段的微调后,整个模型被用于推理。具体来说,视觉编码器首先提取视觉特征V\mathcal{V},然后视觉-语言映射器(V-L mapper)将这些特征投射到文本空间中。接下来,翻译模块以自回归的方式生成文本句子。

实验

主实验

Performance comparison on PHOENIX14T and CSL-Daily

Performance comparison on How2Sign and OpenASL

消融实验

Ablation results of pre-training objectives. Ablation results of fine-tuning and pseudo-gloss-based training. Ablation results of gloss-based VAP

Comparison with SOTA retrieval method on PHOENIX14T test set. Ablation results of aggregation method

可视化

Qualitative results of translation and alignment. Visualization of the retrieval results of two German words. Visualization of the CTC and VAP predictions

总结

在本文中,我们专注于在无gloss标注情况下,如何在手语翻译(SLT)中利用视觉信息。

我们提出了一种视觉对齐预训练(Visual Alignment Pre-training, VAP)方案,通过从文本句子中构建类似gloss的约束来增强视觉编码器的能力。

VAP以一种贪心的方式逼近视觉特征与文本token之间的最优对齐,同时为视觉编码器提供逐帧的标签,并改善其与在大规模语料库上预训练的翻译模块之间的兼容性。

实验结果表明,所提出的VAP方案在引导视觉编码器学习和建立视觉特征与文本token之间的有意义对齐方面是有效的。此外,VAP生成的对齐结果可以作为伪gloss,为手语翻译模型提供中间监督。

我们预计,所提出的VAP方案将推动未来的研究工作,特别是在将手语翻译扩展到大规模数据集方面,从而促进手语翻译领域的发展。