原创学习笔记大模型论文笔记手语翻译多模态

【论文笔记】Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation

发表于2024-10-17更新于2025-06-01

字数总计:1k阅读时长:3分钟阅读量:7 成都评论数:0

AI-摘要

小嗷犬 GPT

本文是一篇关于手语翻译技术的研究论文笔记，详细记录了名为Sign2GPT的研究项目。该项目旨在通过利用大型预训练的视觉和语言模型，实现无需术语表（gloss-free）的手语翻译。Sign2GPT框架通过轻量级适配器和一种创新的伪术语（pseudo

介绍自己 🙈

生成本文简介 👋

推荐相关文章 📖

前往主页 🏠

前往爱发电购买

学习笔记大模型论文笔记手语翻译多模态

【论文笔记】Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation

小嗷犬2024-10-172025-06-01

基本信息

标题: Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation
作者: Ryan Wong, Necati Cihan Camgoz, Richard Bowden
发表: ICLR2024
arXiv: https://arxiv.org/abs/2405.04164

摘要

自动手语翻译需要整合计算机视觉和自然语言处理技术，以有效弥合手语和口语之间的沟通鸿沟。然而，由于大规模训练数据支持手语翻译的不足，我们需要利用口语资源。

我们提出了一种新颖的手语翻译框架，名为Sign2GPT，它通过轻量级适配器利用大规模预训练的视觉和语言模型，实现gloss-free手语翻译。轻量级适配器对于手语翻译至关重要，因为它们克服了有限数据集大小和训练长手语视频时的计算需求。

我们还提出了一种新的预训练策略，该策略指导我们的编码器从自动提取的伪gloss中学习手语表示，而无需gloss顺序信息或标注。

我们在两个公开的手语翻译基准数据集上评估了我们的方法，即RWTH-PHOENIX-Weather 2014T和CSL-Daily，并在gloss-free翻译性能方面取得了显著的改进。

主要贡献

我们提出了一种端到端的gloss-free手语模型Sign2GPT，专为手语翻译设计，利用冻结的GPT语言模型。
我们提出了一种新颖的伪gloss预训练策略，利用从句子中自动提取的伪gloss来预训练手语编码器。
Sign2GPT在gloss-free手语翻译方面相较于以往的方法表现出显著的性能提升，为将冻结的语言和视觉模型应用于手语翻译领域提供了有希望的途径。

方法

模型架构

Spatial Model: Dino-V2（一种ViT-S/14的变体）
Sign Encoder: mean pooling(size=3, stride=2) + local self-attention(size=7)
Language Encoder: XGLM-1.7B（一种多语言GPT）

Sign Encoder的输出还要经过一个线性层变换维度再输入给Language Encoder。

\operatorname{GatedAttention}(Q,K,V)=\left(\boldsymbol{g}\times\operatorname{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)\right)V

$K, V$ 来自 Sign Features， $Q$ 来自 Textual Features， $\boldsymbol{g}$ 为可学习参数（对于每个注意力头）。

训练

Pseudo-gloss generation

对数据集的口语文本进行词形还原（Phoenix14T）和分词（CSLDaily），然后根据词性保留部分词（名词、数词、副词、代词、专有名词、形容词、动词）作为伪gloss。

由于这样得到的伪gloss为口语顺序而不是手语顺序，所以无法直接使用CTC损失训练模型。

Pseudo-gloss pretraining

将从数据集提取出的 $U$ 个伪gloss嵌入为 $D$ 维的原型，用于与 $T$ 帧的视频进行相似度计算，最后按视频整合其每一帧的相似度，以此预测视频包含该原型的可能性，最后对每个原型使用二分类交叉熵进行训练。

🔥 Sign Encoder
❄️ Spatial Model

Fine-tuning

手语翻译任务微调。

🔥 Spatial Model LoRA、Sign Encoder、GPT LoRA
❄️ Spatial Model、GPT

实验

主实验

Phoenix14T上的结果。

PGP: 伪gloss预训练（pseudo-gloss pretraining）

CSL-Daily上的结果。

消融实验

其他

伪gloss在视频中出现位置的可视化。

总结

在这篇论文中，我们提出了一种新的方法来解决gloss-free环境下手语翻译的难题。

我们的方法Sign2GPT在Phoenix14T和CSL-Daily数据集上，相较于现有最先进的技术，展现了显著的性能提升。

我们引入了一种新的预训练策略，通过自动生成的伪gloss学习词汇级的手语特征，从而使得我们的手语编码器能够在不使用人工标注的gloss的情况下进行有效预训练。

此外，所提出的Sign2GPT架构为探索将视觉特征融合到口语语言模型中，以用于手语识别和翻译任务提供了有前景的方向。

小嗷犬

分享技术，记录生活

原创【论文笔记】Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation

打赏作者

感谢你赐予我前进的力量

WeChat Pay
Alipay

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

运营模式与责任

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自小嗷犬！

大模型44 论文笔记66 手语翻译21 多模态41

喜欢这篇文章的人也看了

【论文笔记】Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

【论文笔记】Improving Gloss-free Sign Language Translation by Reducing Representation Density

【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

【论文笔记】Attention Prompting on Image for Large Vision-Language Models

评论

✅ 你无需删除空行，直接评论以获取最佳展示效果

Nickname

Email

Website

0/10000

OωO
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
（╯‵□′）╯︵┴─┴
￣﹃￣
(/ω＼)
∠( ᐛ 」∠)＿
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ｀)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ(￣∇￣o)
ヾ(´･･｀｡)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò｡)
Σ(っ °Д °;)っ
( ,,´･ω･)ﾉ"(´っω･｀｡)
╮(╯▽╰)╭
o(*////▽////*)q
＞﹏＜
( ๑´•ω•) "(ㆆᴗㆆ)

颜文字
Emoji
Bilibili

0 comments

No comment

Living Mice - C418

00:00 / 00:00

1 Dry Hands C418
2 Clark C418
3 Moog City C418
4 Danny C418
5 Living Mice C418
6 Mice on Venus C418
7 Subwoofer Lullaby C418
8 Wet Hands C418
9 Sweden C418
10 Haggstrom C418
11 Minecraft C418