【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

基本信息

标题: Towards Privacy-Aware Sign Language Translation at Scale
作者: Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard
发表: ACL 2024
arXiv: https://arxiv.org/abs/2402.09611

基本信息

摘要

主要阻碍手语翻译(SLT)进步的因素是数据稀缺。

目前网络上可用的手语数据中,很大一部分由于缺乏对齐字幕,无法用于训练监督模型。

此外,使用大规模网络爬取的数据集进行SLT扩展存在隐私风险,因为其中包含生物识别信息,而SLT技术的负责任开发应考虑到这一点。

在本研究中,我们提出了一种两阶段框架,用于大规模隐私感知SLT,以解决这两个问题。

我们引入了SSVP-SLT,该系统利用匿名和无标注视频上的自监督视频预训练,随后在精心挑选的并行数据集上进行监督SLT微调。

SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能,其性能超过最强基线3 BLEU-4。

基于控制实验,我们进一步讨论了自监督预训练和通过面部模糊进行匿名化在SLT中的优势和局限性。

通用框架

Our proposed generic, scalable and privacyaware SLT framework

我们概述了一个通用的、可扩展且隐私保护的SLT(手语翻译)两阶段迁移学习框架。

  • Stage I: 我们通过自监督学习训练一个模型,目标是学习高质量的手语连续表示。在此阶段使用的数据始终是匿名的。我们不对数据如何匿名化做出假设,即不涉及面部模糊,也不涉及使用合成外观等更复杂的方法。
  • Stage II: 我们使用较小且手工编纂的并行数据集以监督方式微调第一阶段训练的模型。理想情况下,由于微调数据集规模可管理,在从数据中的手语者获得明确同意后,可以取消匿名化以最大限度地减少信息损失。

方法

Overview of our two-stage SSVP-SLT method

我们的框架的基本实现采用两步法,称为SSVP-SLT。

  • Self-Supervised Video Pretraining (MAE)
  • Supervised SLT Finetuning

Adding Language-supervised Pretraining

Overview of our LSP extension

我们还在实验中使用语言监督预训练(LSP)步骤扩展了SSVP-SLT,以弥合输入视频和文本翻译之间的模态差距。

实验

主实验

How2Sign test performance of SSVP-SLT in different pretraining configurations compared to baselines

不同预训练配置下SSVP-SLT的How2Sign测试性能与基线的比较。

消融实验

How2Sign test BLEU of SSVP-SLT after pretraining on YouTube-ASL and How2Sign or  How2Sign only and finetuning on the same data

在YouTube-ASL和How2Sign上预训练或仅在How2Sign上预训练的How2Sign测试性能比较。

Performance on unblurred test data for SSVPSLT trained and evaluated on DailyMoth-70h with or  without facial blurring during pretraining and SLT

在各阶段是否对图像进行面部模糊处理对SSVPSLT在DailyMoth-70h数据集上未模糊测试数据上的表现的影响。

How2Sign test performance of SSVP-SLT  when pretraining on (YouTube-ASL and) How2Sign  with a clip size of 16 versus 128 video frames

在(YouTube-ASL和)How2Sign上进行预训练时,SSVP-SLT在16帧与128帧视频帧大小下的How2Sign测试性能比较。

How2Sign test performance of SSVPSLT YT+H2S  800 when finetuning BART and T5, initialized  randomly (PT = ✗) or from the pretrained model (✓)

使用BART或T5以及随机初始化或使用预训练权重的How2Sign测试性能比较。

How2Sign test performance when including  (✓) or removing (✗) the MAE and CLIP objectives  and pretraining from the original Hiera K400  800 or SSVPSLT YT+H2S  600 checkpoint for 200 epochs on YT+H2S,  followed by finetuning on the same data

使用Hiera或SSVP-SLT不同训练目标下微调的How2Sign测试性能比较。

总结

通过控制实验,我们研究了自监督预训练在SLT中的有效性,同时考虑了隐私风险。

我们引入了SSVP-SLT,这是一种新颖、可扩展且具有隐私意识的SLT方法,它利用匿名视频上的掩码自动编码。

在How2Sign基准测试中,它实现了最先进的ASL到英语翻译性能,在微调和零样本设置中,比最佳先前模型高出超过3 BLEU。

我们的结果表明,自监督学习有望缓解数据稀缺问题,并进一步扩大未来手语处理规模。

我们发现,即使是简单的技术,如面部模糊,对下游性能的影响相对较小,进一步证明我们可以在不忽视重要隐私关注的情况下构建更熟练的系统。

我们希望这项工作,以及我们发布的代码和数据,将激发有利于聋人和听力受损社区的未来发展。