【论文笔记】Improving Gloss-free Sign Language Translation by Reducing Representation Density

基本信息

标题: Improving Gloss-free Sign Language Translation by Reducing Representation Density
作者: Jinhui Ye, Xing Wang, Wenxiang Jiao, Junwei Liang, Hui Xiong
发表: NeurIPS 2024
arXiv: https://arxiv.org/abs/2405.14312

基本信息

摘要

gloss-free手语翻译(SLT)旨在开发无需昂贵gloss标注的、性能良好的SLT系统,但目前仍显著落后于gloss-based的翻译方法。

在本文中,我们确定了一个可能成为gloss-free SLT性能瓶颈的表示密度问题

具体来说,表示密度问题描述了语义上不同的手势在特征空间中的视觉表示往往紧密排列在一起,这使得gloss-free方法难以区分不同的手势,并导致性能急剧下降。

为了解决表示密度问题,我们引入了一种简单但有效的对比学习策略,即SignCL,它鼓励gloss-free模型以自监督的方式学习更具判别性的特征表示。

我们的实验表明,所提出的SignCL可以显著降低表示密度并提高各种翻译框架的性能。

具体来说,SignCL在CSL-Daily数据集上对Sign Language Transformer和GFSLT-VLP的BLEU分数分别提高了39%和46%,而没有任何模型参数的增加。

与基于大规模预训练视觉和语言模型的顶尖方法Sign2GPT相比,SignCL仅使用其参数的35%就实现了更好的性能。

实现和检查点可在https://github.com/JinhuiYE/SignCL获取。

主要贡献

  • 据我们所知,我们的工作首次确定了手语翻译中的表示密度问题。该问题在各种手语特征提取方法中普遍存在,包括gloss-based和gloss-free方法。
  • 实验结果表明,表示密度的增加会导致手语识别和翻译的准确性显著下降。我们发现,表示密度问题对gloss-free手语翻译构成了重大挑战。
  • 我们提出了一种简单但有效的对比学习策略,即SignCL,以解决表示密度问题。我们的实验表明,SignCL可以显著提升各种已知的SLT框架。具体来说,SignCL在CSL-Daily数据集上为Sign Language Transformer提高了39.01%的BLEU分数,并为GFSLT-VLP提高了45.58%。

表示密度问题

An example of the representation density problem in sign language translation

一个手语翻译中表征密度问题的例子。两幅图像展示了“回报” (蓝色圆点) 和“报复” (橙色圆点) 的手势。尽管这两个词的意义相反,但它们的视觉表征在t-SNE可视化中紧密聚集在一起。可视化中的各种颜色表示具有不同意义的手势。

Representation Density Metrics

Sign Density Ratio (SDR) 被定义为:

SDR(Gi)=DGiintraavg.DGiinter=D(Gi)Meanji(D(Gi,Gj))SDR(G_i) = \frac{D_{G_i}^{intra}}{avg. D_{G_i}^{inter}} = \frac{D(G_i)}{Mean_{j \neq i} \left( D(G_i, G_j) \right)}

其中,DGiintraD_{G_i}^{intra} 表示glossGiG_i 内不同样本平均距离,avg.DGiinteravg. D_{G_i}^{inter} 表示glossGiG_i 内的样本与其他gloss内样本的平均距离。平均gloss间距离D(Gi,Gj)D(G_i, G_j) 和平均gloss内距离D(Gi)D(G_i) 的计算如下:

D(Gi,Gj)=1GiGjxGi,yGjd(x,y)D(G_i, G_j) = \frac{1}{|G_i||G_j|} \sum_{x \in G_i, y \in G_j} d(x, y)

D(Gi)=1Gi(Gi1)x,yGi,xyd(x,y)D(G_i) = \frac{1}{|G_i|(|G_i|-1)} \sum_{x, y \in G_i, x \neq y} d(x, y)

SDR 值越小,表明该特征对不同gloss的区分性更好。

Demonstrating Representation Density Problem

The t-SNE visualization of sign features across existing extraction techniques

通过对不同可视化开源手语特征的实证分析,我们发现不同手语特征提取方法普遍存在表示密度问题。

如图2所示,所有评估的方法都显示出超过50%的SDR,特征表示不可避免地存在重叠。

值得注意的是,不使用gloss标注作为额外监督的(例如I3D和VLP)的gloss-free方法,其表示密度比gloss-based的方法更为严重。这表明代表不同语义的符号手势(通过不同的颜色指示)在推理过程中显著重叠,导致翻译歧义。

具体来说,VLP的SDR为92.59%,显著高于SMKD的66.23%。

Demonstrating Performance Drop

Comparative analysis of representation density and its impact on sign language recognition (SLR) and translation (SLT)

通过分析gloss-free和gloss-based的SDR与SLR、SLT的性能指标之间的相关性,作者得出了以下发现:

  • 性能受表示密度影响。我们在所有特征类型和任务中均观察到表示密度与性能之间存在负相关关系。更高的表示密度会导致SLR的准确性下降和SLT的BLEU分数降低。具体来说,SDR增加26%会导致NSLT性能下降36%。
  • gloss-free方法在表示密度方面表现较差。gloss-free的特征提取方法(例如VLP),不使用任何gloss标注辅助,通常比gloss-based的方法具有更高的SDR(例如SDR(VLP)=92.59% > SDR(SMKD)=66.23%)。使用gloss-free特征与使用gloss-based的特征相比(例如VLP与SMKD),识别和翻译性能更差。
  • 对比学习通过降低表示密度来提升性能。当对比学习应用于增强gloss-free特征表示学习时,即用于特征提取的VLP+SignCL或用于下游微调的NSLT+SignCL,特征表示密度会持续降低,同时SLR准确率和SLT性能均显著提高。

方法

对比学习,一种流行的自监督学习算法,旨在通过拉近正样本对并推开负样本对来学习有效的表示。

在本节中,我们介绍了一种简单但高效的手语对比学习策略,即SignCL,该策略旨在解决gloss-free手语翻译中的表示密度问题。

Sign Contrastive Learning

对比学习的关键因素在于如何采样正负训练对。

如图4(a)所示的框架中,SignCL的采样策略如下:

  • 如果两个帧足够接近(例如,相邻),则认为它们属于相同的手语手势,并被视为正样本。
  • 相反,如果两个帧相隔较远,超过两倍的margin\text{margin}(例如,fedfst>20|f_{ed} - f_{st}| > 20 帧),则认为它们与不同的语义相关联,并被视为负样本。

统计上,手语视频中每个手势的平均持续时间为9帧,根据手语到手势的Zipf定律,每个gloss大约代表2.3个口语单词。因此,我们将margin\text{margin} 设置为max(10,len(frames)len(text)×2.3)\max\left(10, \frac{\text{len(frames)}}{\text{len(text)}} \times 2.3\right)

{positive pair(fst,fed+):fed+fst1negative pair(fst,fed):fedfst>2margin\left\{ \begin{array}{ll} \text{positive pair}(f_{st}, f_{ed}^+): & |f_{ed}^+ - f_{st}| \leq 1 \\ \text{negative pair}(f_{st}, f_{ed}^-): & |f_{ed}^- - f_{st}| > 2 * \text{margin} \end{array} \right.

LSignCL=1Nst=1N[d(fst,fed+)+max(0,md(fst,fed))]\mathcal{L}_{\text{SignCL}} = \frac{1}{N} \sum_{st=1}^N \left[ d(f_{st}, f_{ed}^+) + \max(0, m - d(f_{st}, f_{ed}^-)) \right]

其中,dd 是距离函数,即帧特征(fst,fed)(f_{st}, f_{ed}) 的欧几里得距离,NN 是手语视频中的总帧数,N=len(frames)N = \text{len(frames)}。边界参数mm 用于防止负样本对的特征相隔太远。我们根据gloss-based的手语特征(例如,SMKD)的平均gloss间距离经验性地将mm 设置为64。

Overview of the SignCL in gloss-free sign language translation

Integrating Contrastive Learning into Sign Language Translation Tranining

如图4(b)和4©所示,SignCL可以集成到手势特征提取预训练阶段(例如,VLP)以及下游任务微调阶段(例如,GFSLT-VLP)。

这些方法的优化目标是LSignCL\mathcal{L}_{\text{SignCL}} 和原始目标损失(例如,预训练的VLP损失和微调的SLT损失)的加权总和,定义为:

L=λLSignCL+LMLE\mathcal{L} = \lambda * \mathcal{L}_{\text{SignCL}} + \mathcal{L}_{MLE}

其中,LMLE\mathcal{L}_{MLE} 是预训练或微调中的原始目标损失。

实验

主实验

Improvement in the GFSLT-VLP framework by reducing representation density on PHOENIX-2014T test set

Enhancing GFSLT-VLP by reducing representation density on CSL-Daily test set

消融实验

Ablation study on the impact of different loss components in the +SignCL approach

定性分析

为了理解我们在处理表征密度问题时采用的SignCL方法,我们在图5中展示了一个来自CSL-Daily数据集的案例。

Qualitative comparison of translation results on CSL-Daily test set

如图所示,“电脑”(laptop)和“钢琴”(piano)的手势显示方式存在细微差别。

根据t-SNE结果,这两个在语义上不同的手势在特征空间中的表征紧密排列在一起,导致基线GFSLT-VLP模型错误地将“钢琴”(piano)翻译为“电脑”(laptop)。

相比之下,我们提出的SignCL在特征空间中有效地分离了“电脑”(laptop)和“钢琴”(piano)的表征,从而实现了“钢琴”(piano)的准确翻译。

总结

在这项工作中,我们识别了gloss-free手语翻译中一个关键的表现密度问题。

我们的系统研究揭示了这个问题存在于各种现有的手语特征提取方法中,并导致手语识别和翻译性能急剧下降,尤其是在gloss-free方法中。

为了解决这个问题,我们提出了一种简单但有效的对比学习策略,称为SignCL。

我们的实验表明,SignCL鼓励gloss-free模型学习更具区分度的特征,并显著降低了表现密度。

此外,我们的实验还表明,SignCL在各种框架和数据集上显著提高了翻译性能,实现了gloss-free手语翻译的新突破。

我们通过详细的例子说明了SignCL的有效性。