【论文笔记】A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

基本信息

标题: A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
作者: Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin
发表: CVPR 2022
arXiv: https://arxiv.org/abs/2203.04287

基本信息

摘要

本文提出了一种简单的迁移学习基线用于手语翻译。

现有的手语数据集(例如PHOENIX-2014T、CSL-Daily)仅包含约1万至2万对手语视频、gloss标注和文本,这比训练口语翻译模型的典型平行数据小一个数量级。

因此,数据成为训练有效手语翻译模型的瓶颈。为了缓解这个问题,我们提出从包含大量外部监督的通用领域数据集逐步预训练模型,直至领域内数据集。

具体来说,我们在人类动作的通用领域和gloss标注的领域内数据集上预训练手语到gloss的视觉网络,并在多语言语料库的通用领域和gloss到文本语料库的领域内预训练gloss到文本的翻译网络。

联合模型通过一个名为视觉语言映射器的额外模块进行微调,该模块连接两个网络。

这个简单基线在两个手语翻译基准测试中超越了之前的最先进结果,证明了迁移学习的有效性。凭借其简洁性和强大的性能,这种方法可以作为未来研究的一个坚实的基线。

We decouple sign language translation into a visual task (left part) and a language task (right part), and propose a visuallanguage mapper (V-L Mapper) to bridge the connection between them

方法

Overview of our framework

Architecture of our visual encoder network

在Kinetics-400动作识别数据集和WLASL孤立手势识别数据集上预训练的S3D骨干网络。

实验

主实验

Comparison with state-of-the-art methods on PHOENIX-2014T

Comparison with state-of-the-art methods on CSL-Daily

消融实验

Ablation study of visual encoder with different pretraining settings on the PHOENIX Sign2Gloss and PHOENIX Sign2Text tasks

Ablation study of general-domain language pretraining on the PHOENIX Gloss2Text task

Ablation study of mBART with different pretraining settings on the PHOENIX Sign2Text task

Ablations on different visual features as the V-L Mapper input on PHOENIX Sign2Text

总结

我们提出了一种简单而有效的多模态迁移学习基线,用于手语翻译。

为了缓解数据稀缺问题,我们通过逐步预训练视觉和语言模块,从通用领域到目标领域,利用大规模外部知识,包括人类动作和口语。

然后,这两个单独预训练的模块通过视觉语言映射器进行联合SLT训练。

在两个SLT数据集上的实验表明,我们的方法优于所有最先进的方法。

我们的方法可以应用于各种手语。

在未来工作中,我们希望使用这个框架将更多外部知识转移到SLT,以进一步提高。

我们希望我们的简单基线能够促进SLT未来的研究,并激励更多研究人员参与这个领域。