【论文笔记】Visual Alignment Pre-training for Sign Language Translation
【论文笔记】Visual Alignment Pre-training for Sign Language Translation
小嗷犬基本信息
标题: Visual Alignment Pre-training for Sign Language Translation
作者: Peiqi Jiao, Yuecong Min, Xilin Chen
发表: ECCV 2024
摘要
手语翻译(Sign Language Translation, SLT)旨在将手语视频翻译为文本句子。
尽管gloss序列为SLT中的视觉表征学习提供了有效的对齐监督信息,但标注gloss的高成本限制了其可扩展性。
现有工作在gloss-free的情况下尚未取得令人满意的结果。
在本研究中,我们将这一挑战归因于视觉token和文本token之间的灵活对应关系,并通过从文本句子中构建类似gloss的约束来解决这一问题。
具体而言,我们提出了一种**视觉对齐预训练(Visual Alignment Pre-training, VAP)**方案,通过以贪婪的方式对齐视觉和文本token来利用视觉信息。
VAP方案增强了视觉编码器捕获语义感知视觉信息的能力,并促进了与在大规模语料库上预训练的翻译模块的更好适配。
针对四个SLT基准的实验结果证明了VAP的有效性,能够生成合理的对齐,并显著缩小与gloss-based方法之间的性能差距。
介绍
主要贡献
- 探讨了gloss annotation在手语翻译(SLT)中的作用,并展示了在gloss-free设置下利用视觉信息的重要性。
- 提出了视觉对齐预训练(Visual Alignment Pre-training, VAP),通过以贪婪的方式对齐视觉和文本token来促进视觉表征学习。
- 对gloss-free的SLT模型训练进行了深入的实验。实验结果表明,VAP具有良好的效果,能够生成可靠的对齐结果,并接近gloss-based的方法。
方法
gloss标注在手语翻译中的作用
手语翻译旨在将手语视频翻译为对应的文本句子。如图2所示,通用的SLT网络可以划分为一个视觉编码器 和一个翻译模块。给定一个手语视频或其他类型的输入(例如,骨架数据) 和对应的文本句子, 从视频中提取视觉特征,而 基于 预测。网络通过最小化负对数似然来优化,其公式为:
在自然语言处理(NLP)中,单词对齐通常指的是在平行文本中指示对应单词 和 的过程,可以表示为矩阵,其中 表示 是否与 对应。考虑到 和 之间的对齐关系,最近gloss-based的SLT研究中使用的损失函数可以重新表述为:
其中 表示包含 个gloss的gloss标注,它与 单调对齐。如上文公式所示, 的监督来自两个方面:对齐本身和翻译与对齐的结合。gloss-based的方法通过引入额外的监督来提高视觉信息的利用率。然而,之前的gloss-free方法表现较差,主要原因在于 和 之间的灵活对应关系,这阻碍了最佳对齐的寻找,并无法为视觉编码器提供足够的监督。
基于以上分析,我们认为解决该问题的关键在于从文本句子中构建类似gloss的约束,并提出了 视觉对齐预训练(Visual Alignment Pre-training, VAP) 方案。
视觉对齐预训练
gloss-based的传统方法通常利用CTC(连接时序分类)对 进行监督,假设 中所有的单调对齐均成立,公式如下:
其中 表示 和 之间的一种对齐关系。我们假设视频中每个手势的近似含义可以在对应的文本句子中找到,并尝试利用 和 之间的对齐关系来监督。然而, 和 之间存在多达 种潜在的对齐方式,这对在没有适当约束的情况下(例如单调关系或gloss注解所具有的约束)识别最佳对齐关系提出了挑战。受近期视觉-语言预训练技术的启发,我们提出了一种VAP方案,用于简化对齐过程,以贪婪方式近似最佳对齐,并为视觉编码器提供逐帧标签。
具体而言,给定一个文本句子,我们首先使用文本编码器 提取其对应的文本特征,然后通过两个简单的线性层将 和 投影到一个联合特征空间:
随后,通过识别每个视觉特征与最相似的文本特征,可以计算对齐关系:
其中, 以余弦相似度的形式实现。为了确保 的合理性,我们通过以下公式计算视频和文本的相似性:
并采用对比学习模式优化。然而,仅依赖 进行预训练可能会导致 的输出坍缩为一个恒定值。为了避免这种情况,我们还计算文本与视频的相似性,该相似性通过为每个文本特征识别最相似的视觉特征 来计算。
在此基础上,对于包含 个视频-文本对 的小批量,可以通过以下公式计算对比损失:
其中, 是用于缩放logits的预定义温度。通过所提出的,我们增大了成对的视觉和文本特征序列之间的相似性,这将鼓励每个特征找到其最相关的配对特征并靠拢。
此外,对齐的计算仅依赖于gloss级别的信息,缺乏对齐时间一致性的约束。上文公式的分解表明,翻译损失也显著增强了对齐质量。我们通过实验(表3)展示,仅通过重新初始化翻译模块就可以提升性能,这表明优化对齐过程与提升翻译能力同步进行的重要性。因此,我们将 纳入进来,以确保所用翻译模块的时间一致性,从而达到对齐的时间一致性。预训练阶段的最终监督目标如下:
通过以上设计,我们可以计算视觉和文本token之间的近似对齐,并获得一个语义感知的视觉编码器。
端到端微调
与一般的机器翻译数据集相比,公共的手语翻译(SLT)数据集仍然规模有限。因此,我们采用在大规模语料库(如 mBART, T5)上预训练的翻译模块来替代浅层翻译模块,从而在微调过程中缓解对大量训练数据的需求。此外,类似于文献中的 G2T(Gloss2Text)任务,我们设计了一个伪gloss到文本(P2T,Pseudo-gloss2Text)任务,用于微调预训练翻译模块以更好地适应任务。
具体来说,我们可以基于对齐矩阵 为每个手语视频生成一个伪gloss序列。由于 为每个视觉特征识别出最相似的文本token,而视频的连续性导致局部窗口内的特征可能会引用相同的token,我们简单地合并重复的token,通过以下公式获得:
其中, 表示合并操作。P2T 的训练目标可以表述为:
至此,我们已经有了预训练良好的视觉编码器和微调良好的翻译模块。接下来是对整个模型的端到端微调。我们采用一个两层的 MLP 作为视觉-语言映射器(V-L 映射器),与之前工作中相同,该模块负责将视觉特征投影到文本空间。在微调期间,我们仍然包括 损失以持续改进视觉编码器,最终的总损失可以表示为:
对齐质量评估
在上文中,我们假设视频中每个手语的大致含义可以在文本句子中找到,并通过识别最相似的文本token来计算对齐关系。基于这一假设,生成的伪gloss 也应该与手语视频单调对齐。然而,由于不同词汇之间的差异,我们无法直接通过gloss来评估生成对齐关系的质量。因此,我们提出了两种方法来间接评估生成对齐关系的质量。
如果 与手语视频单调对齐,它应该能够像gloss一样指导 SLT 网络的学习。因此,我们从零开始训练一个 SLT 网络,类似于大多数gloss-based的 SLT 方法,但用伪gloss 替代了gloss,其损失函数可以表述为:
通过这种基于伪gloss的模型与 VAP 的性能差距可以隐式反映生成对齐关系的质量。
与通过翻译性能(如词错误率,WER)评估对齐质量相比,通过对齐性能进行评估更为直观。因此,我们提出通过在预训练中用伪gloss替换文本句子,计算生成伪gloss与对应gloss之间的 WER 来评估对齐方法的质量。换句话说,这种方法旨在检查对齐方法是否能够从无序序列中找到正确的顺序。
总的来说,所提出的方法能够评估对齐关系的质量,包括生成结果和对齐方法本身的质量。
训练与推理
训练
如图 3 所示,VAP 的训练流程包括三个阶段。
视觉编码器在第 1 阶段使用 进行预训练。翻译模块基于大规模语料库进行预训练,并在第 2 阶段使用 进行微调。最后,在第 3 阶段,整个模型使用 进行端到端微调。
需要注意的是,VAP 是一种gloss-free方法,gloss仅用于如上文所述的伪gloss质量评估。
推理
在经过第3阶段的微调后,整个模型被用于推理。具体来说,视觉编码器首先提取视觉特征,然后视觉-语言映射器(V-L mapper)将这些特征投射到文本空间中。接下来,翻译模块以自回归的方式生成文本句子。
实验
主实验
消融实验
可视化
总结
在本文中,我们专注于在无gloss标注情况下,如何在手语翻译(SLT)中利用视觉信息。
我们提出了一种视觉对齐预训练(Visual Alignment Pre-training, VAP)方案,通过从文本句子中构建类似gloss的约束来增强视觉编码器的能力。
VAP以一种贪心的方式逼近视觉特征与文本token之间的最优对齐,同时为视觉编码器提供逐帧的标签,并改善其与在大规模语料库上预训练的翻译模块之间的兼容性。
实验结果表明,所提出的VAP方案在引导视觉编码器学习和建立视觉特征与文本token之间的有意义对齐方面是有效的。此外,VAP生成的对齐结果可以作为伪gloss,为手语翻译模型提供中间监督。
我们预计,所提出的VAP方案将推动未来的研究工作,特别是在将手语翻译扩展到大规模数据集方面,从而促进手语翻译领域的发展。