原创学习笔记大模型论文笔记手语翻译多模态

【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

发表于2024-11-16更新于2025-08-13

字数总计:1k阅读时长:3分钟阅读量:11 成都评论数:0

AI-摘要

小嗷犬 GPT

本文是一篇关于《Towards Privacy-Aware Sign Language Trans

介绍自己 🙈

生成本文简介 👋

推荐相关文章 📖

前往主页 🏠

前往爱发电购买

学习笔记大模型论文笔记手语翻译多模态

【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

小嗷犬2024-11-162025-08-13

基本信息

标题: Towards Privacy-Aware Sign Language Translation at Scale
作者: Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard
发表: ACL 2024
arXiv: https://arxiv.org/abs/2402.09611

摘要

主要阻碍手语翻译（SLT）进步的因素是数据稀缺。

目前网络上可用的手语数据中，很大一部分由于缺乏对齐字幕，无法用于训练监督模型。

此外，使用大规模网络爬取的数据集进行SLT扩展存在隐私风险，因为其中包含生物识别信息，而SLT技术的负责任开发应考虑到这一点。

在本研究中，我们提出了一种两阶段框架，用于大规模隐私感知SLT，以解决这两个问题。

我们引入了SSVP-SLT，该系统利用匿名和无标注视频上的自监督视频预训练，随后在精心挑选的并行数据集上进行监督SLT微调。

SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能，其性能超过最强基线3 BLEU-4。

基于控制实验，我们进一步讨论了自监督预训练和通过面部模糊进行匿名化在SLT中的优势和局限性。

通用框架

我们概述了一个通用的、可扩展且隐私保护的SLT（手语翻译）两阶段迁移学习框架。

Stage I: 我们通过自监督学习训练一个模型，目标是学习高质量的手语连续表示。在此阶段使用的数据始终是匿名的。我们不对数据如何匿名化做出假设，即不涉及面部模糊，也不涉及使用合成外观等更复杂的方法。
Stage II: 我们使用较小且手工编纂的并行数据集以监督方式微调第一阶段训练的模型。理想情况下，由于微调数据集规模可管理，在从数据中的手语者获得明确同意后，可以取消匿名化以最大限度地减少信息损失。

方法

我们的框架的基本实现采用两步法，称为SSVP-SLT。

Self-Supervised Video Pretraining (MAE)
Supervised SLT Finetuning

Adding Language-supervised Pretraining

我们还在实验中使用语言监督预训练（LSP）步骤扩展了SSVP-SLT，以弥合输入视频和文本翻译之间的模态差距。

实验

主实验

不同预训练配置下SSVP-SLT的How2Sign测试性能与基线的比较。

消融实验

在YouTube-ASL和How2Sign上预训练或仅在How2Sign上预训练的How2Sign测试性能比较。

在各阶段是否对图像进行面部模糊处理对SSVPSLT在DailyMoth-70h数据集上未模糊测试数据上的表现的影响。

在（YouTube-ASL和）How2Sign上进行预训练时，SSVP-SLT在16帧与128帧视频帧大小下的How2Sign测试性能比较。

使用BART或T5以及随机初始化或使用预训练权重的How2Sign测试性能比较。

使用Hiera或SSVP-SLT不同训练目标下微调的How2Sign测试性能比较。

总结

通过控制实验，我们研究了自监督预训练在SLT中的有效性，同时考虑了隐私风险。

我们引入了SSVP-SLT，这是一种新颖、可扩展且具有隐私意识的SLT方法，它利用匿名视频上的掩码自动编码。

在How2Sign基准测试中，它实现了最先进的ASL到英语翻译性能，在微调和零样本设置中，比最佳先前模型高出超过3 BLEU。

我们的结果表明，自监督学习有望缓解数据稀缺问题，并进一步扩大未来手语处理规模。

我们发现，即使是简单的技术，如面部模糊，对下游性能的影响相对较小，进一步证明我们可以在不忽视重要隐私关注的情况下构建更熟练的系统。

我们希望这项工作，以及我们发布的代码和数据，将激发有利于聋人和听力受损社区的未来发展。

小嗷犬

分享技术，记录生活

原创【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

打赏作者

感谢你赐予我前进的力量

WeChat Pay
Alipay

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

运营模式与责任

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自小嗷犬！

大模型44 论文笔记66 手语翻译21 多模态41

喜欢这篇文章的人也看了

【论文笔记】Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

【论文笔记】Improving Gloss-free Sign Language Translation by Reducing Representation Density

【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

【论文笔记】Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation

【论文笔记】Attention Prompting on Image for Large Vision-Language Models

评论

✅ 你无需删除空行，直接评论以获取最佳展示效果

Nickname

Email

Website

0/10000

OωO
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
（╯‵□′）╯︵┴─┴
￣﹃￣
(/ω＼)
∠( ᐛ 」∠)＿
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ｀)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ(￣∇￣o)
ヾ(´･･｀｡)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò｡)
Σ(っ °Д °;)っ
( ,,´･ω･)ﾉ"(´っω･｀｡)
╮(╯▽╰)╭
o(*////▽////*)q
＞﹏＜
( ๑´•ω•) "(ㆆᴗㆆ)

颜文字
Emoji
Bilibili

0 comments

No comment

Clark - C418

00:00 / 00:00

1 Dry Hands C418
2 Clark C418
3 Moog City C418
4 Danny C418
5 Living Mice C418
6 Mice on Venus C418
7 Subwoofer Lullaby C418
8 Wet Hands C418
9 Sweden C418
10 Haggstrom C418
11 Minecraft C418