【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
小嗷犬基本信息
标题: Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
作者: Jungeun Kim, Hyeongwoo Jeon, Jongseong Bae, Ha Young Kim
arXiv: https://arxiv.org/abs/2411.16789
摘要
手语翻译(SLT)是一项具有挑战性的任务,涉及将手语图像翻译成口语。
为了使SLT模型成功完成这项任务,它们必须弥合模态差距,并识别手语组件的细微变化,以准确理解其含义。
为了解决这些挑战,我们提出了一种新颖的gloss-free SLT框架,称为Multimodal Sign Language Translation(MMSLT),该框架利用了现成多模态大型语言模型(MLLMs)的表征能力。
具体来说,我们使用MLLMs生成手语组件的详细文本描述。
然后,通过我们提出的多模态语言预训练模块,我们将这些描述特征与手语视频特征相结合,使它们在口语句子空间内对齐。
我们的方法在基准数据集PHOENIX14T和CSL-Daily上实现了最先进的性能,突显了MLLMs在SLT中有效利用的潜力。
主要贡献
- 我们提出了一种gloss-free的SLT框架MMSLT,首次利用现成的MLLM。为了实现高效的推理而不需要使用MLLM,我们设计了一个描述映射模块。
- 通过分析各种MLLM和提示,我们提出了GSD-MLLM模块,该模块可以从手语图像生成详细的SL描述。
- 我们引入了MMLP模块,该模块有效地整合了两种模态,即SL描述和手语图像,并将它们与目标句子空间对齐以减少模态差距。
- 我们通过广泛的实验证明了MMSLT的有效性,在两个基准数据集上实现了SOTA的gloss-free SLT性能。MMSLT显著提高了BLEU-4和ROUGE分数,表明在复杂句法和长上下文中翻译的有效性。
MLLMs and Prompts: Preliminary Analysis
Video-based MLLM vs Image-based MLLM
首先,我们通过评估其描述SL组件的能力来探讨基于视频和基于图像的MLLM在SLT中的潜力。
如图2a所示,基于视频的MLLM,如Video-LLaMA和Video-LLaVA,在捕捉SL组件方面表现出有限的能力。相反,它们提供简单的总结,如“用手势”,或重复相同的内容,并包含与手语无关的一般性描述,如“穿着西装”或错误信息。
另一方面,基于图像的MLLM,如LLaVa-Next、InternVL、QwenVL2、Pixtral和LLaVA-OneVision,生成SL组件的详细描述,如“手指略微张开”或“眼睛专注并指向”。值得注意的是,如图2c所示,LLaVA-OneVision提供的描述仅关注SL组件,不包括无关信息。
在本实验中,由于生成SL描述的处理时间和资源限制,排除了大型模型,如LLaVA-OneVision 72B。
Prompt Engineering
为了有效地利用MLLM,选择合适的模型并制定明确的提示,以明确提取信息或为内容提供上下文清晰度至关重要。
为此,我们使用六个不同的提示进行推理,如图3所示。
这些提示可以分为简单(1、2)、详细(3、4)和情境(5、6)类型。
提示(1)、(2)和(4)引发的响应主要关注无关信息,如图2b所示,而提示(3)、(5)和(6)生成的响应则更集中于SL组件。
然而,提示(6)的响应包含不准确之处,而提示(5)的响应则更准确,并提供了更详细的信息。
尽管如此,它们往往重复使用示例句子,并在连续的帧中产生重复的答案。
相比之下,如图2c所示,提示(3)提供了SL组件的详细描述,例如手部形状、手势者的目光和嘴型,有效地传达了手势者的手势和面部表情的含义。
此外,它避免了引用与理解手语无关的外部信息,并成功捕捉了连续手势之间的细微差别。
方法
Generating SL Descriptions via MLLM
根据前面的分析,我们利用基于图像的MLLM和提示符 来生成第 个手语视频 的一系列SL描述,如图4所示。在这个上下文中,手语视频的总数是,帧的高度和宽度分别是 和。帧的总数是。
然而,我们观察到MLLM在准确捕捉手语者面部表情方面存在局限性,经常产生唇形的碎片化描述,如“微笑”,或错误地将闭眼描述为“睁眼”。
这表明,尽管SL描述捕捉了SL组件,但它们有时是不准确的,缺乏细节。
Multimodal-Language Pre-training
为了促进两种模态之间的协同作用,我们将手语图像集成到SL描述中。
显然,手语视频和口语句子之间存在模态差距。
为了弥合这一差距,我们提出了MMLP,一个预训练模块,它有效地融合手语视频及其对应的SL描述,并学习将它们与口语句子对齐,如图4所示。
Description Mapper
首先,我们从第-个手语视频 中提取视觉特征,使用图像编码器,这是一个在 ImageNet 上预训练的 ResNet18,其中 表示 的维度。
同时,我们从每个帧 的 SL 描述中获得描述嵌入特征,使用描述编码器,这是一个预训练的、冻结的 12 层 BERT。
在此上下文中,我们将 [CLS]
token的嵌入特征定义为,编码句子级信息,其中 表示 的维度。这些描述嵌入特征共同形成描述特征。
然而,如果直接利用 来整合手语视频和 SL 描述,通过 MLLM 生成 SL 描述在推理过程中变得必要。这导致计算成本增加和推理时间延长。
为了解决这个问题,我们提出了一种描述映射器,其特征是一个简单的两层 MLP 结构,用于从 预测。
这也有助于弥合输入数据源之间的模态差距,并允许我们获得近似描述特征:
为了最小化 (\hat{D}_j) 和 (D_j),我们定义损失函数如下:
Modality Adapter
为了结合视觉特征和近似的SL描述特征,我们提出了一种Modality Adapter,它由一个一维卷积层、一个最大池化层和一个两层的MLP组成。
由于手语通常由多个帧组成,且 和 是从连续的手语帧中得出的,我们采用了一维卷积进行时间建模。
此外,MLP层用于整合来自两种模态的信息。
捕获到的 和 被连接起来,然后输入到Modality Adapter中,从而提取出手势元素特征,其中 是减少的序列长度, 是嵌入维度。这一过程可以表示如下:
其中 表示连接操作。
Multimodal Encoder with LoRA
为了提取 的表示,我们引入了一个Multimodal Encoder。
为此,我们利用了mBART编码器,它由12层组成,并使用在大规模语料库上预训练的参数进行初始化。
为了在保留预训练知识的同时,便于适应手语数据集,我们应用了LoRA技术,该技术通过向LLM的权重矩阵中添加低秩矩阵来实现参数高效的微调。
所得输出称为多模态视觉-文本特征(多模态特征),表示为,可以表示如下:
Multimodal-Language Alignment
包含了视觉和文本信息,然而其与目标口语句子之间仍然存在模态差距。
为了解决这一挑战并将 与目标口语句子对齐,我们提出了一种多模态语言对齐方法。
令 为与 对应的目标口语句子。
我们使用文本编码器 将 嵌入到文本特征 中,其中 表示口语句子中的token数量,使用一个冻结的12层mBART编码器,该编码器在大规模语料库上进行了预训练,类似于。
由于我们的目标是对齐,我们应用对比学习。
具体来说,我们在帧序列 和token序列 上执行平均池化,以获得全局多模态特征 和全局口语句子特征。
最后,我们使用损失函数对齐对,如下所示:
其中 表示 和 之间的余弦相似度, 是一个可学习的温度参数。
因此,我们在 MMLP 中定义最终的损失函数如下:
其中 是一个超参数,用于控制 和 的权重。
Sign Language Translation
为了执行端到端的gloss-free SLT,我们首先继承了MMLP中的预训练网络。
在这种情况下,描述编码器 不被使用,描述映射器 保持冻结,因为它仅用于预测SL描述。
因此,我们微调视觉编码器、模态适配器 和多模态编码器。
给定手语视频,我们提取多模态特征。
随后,初始化的LLM解码器,其结构为12层的mBART解码器,将多模态特征 作为输入,生成预测的口语句子。
在此过程中,(\psi_{dec}) 采用自回归方法,从特殊起始token <BOS>
开始翻译,并依次生成单词,直到序列结束token <EOS>
标记句子生成的结束。
我们训练模型以最小化预测 token 与真实 token 之间的交叉熵损失,定义如下:
实验
主实验
消融实验
总结
在这项研究中,我们提出了MMSLT,这是一种gloss-free的SLT框架,首次利用了现成的MLLM。
我们利用MLLM通过精心设计的提示生成SL描述,将它们与手语图像结合以有效地表示手语。
我们引入了一个预训练模块,以将融合的模态与口语句子对齐,解决SLT中的模态差距。
此外,我们还提出了一种描述映射器,通过近似SL描述来减少MLLM在推理过程中的计算负担。
这项研究为在SLT中使用MLLM奠定了基础,并为该领域的未来探索开辟了新的途径。