D^j,t−Dj,t22Modality Adapter
为了结合视觉特征和近似的SL描述特征,我们提出了一种Modality Adapterψma,它由一个一维卷积层、一个最大池化层和一个两层的MLP组成。
由于手语通常由多个帧组成,且Vj 和D^j 是从连续的手语帧中得出的,我们采用了一维卷积进行时间建模。
此外,MLP层用于整合来自两种模态的信息。
捕获到的Vj 和D^j 被连接起来,然后输入到Modality Adapter中,从而提取出手势元素特征SEj∈RT′×C′,其中T′ 是减少的序列长度,C′ 是嵌入维度。这一过程可以表示如下:
SEj=ψma(Vj⊕D^j)
其中⊕ 表示连接操作。
Multimodal Encoder with LoRA
为了提取SEi 的表示,我们引入了一个Multimodal Encoderψenc。
为此,我们利用了mBART编码器,它由12层组成,并使用在大规模语料库上预训练的参数进行初始化。
为了在保留预训练知识的同时,便于适应手语数据集,我们应用了LoRA技术,该技术通过向LLM的权重矩阵中添加低秩矩阵来实现参数高效的微调。
所得输出称为多模态视觉-文本特征(多模态特征),表示为Mj∈RT′×C′,可以表示如下:
Mj=ψenc(SEj)
Multimodal-Language Alignment
Mj 包含了视觉和文本信息,然而其与目标口语句子之间仍然存在模态差距。
为了解决这一挑战并将Mj 与目标口语句子对齐,我们提出了一种多模态语言对齐方法。
令SLj 为与SVj 对应的目标口语句子。
我们使用文本编码器ψte 将SLj 嵌入到文本特征Lj∈RTˉ×C′ 中,其中Tˉ 表示口语句子中的token数量,使用一个冻结的12层mBART编码器,该编码器在大规模语料库上进行了预训练,类似于ψenc。
由于我们的目标是对齐{Mj,Lj}j=1B,我们应用对比学习。
具体来说,我们在帧序列T′ 和token序列Tˉ 上执行平均池化,以获得全局多模态特征M~j∈RC′ 和全局口语句子特征L~j∈RC′。
最后,我们使用损失函数对齐对{M~j,L~j}j=1N,如下所示:
LALIGN=−2B1(j=1∑Blog∑k=1Bexp(sim(M~j,L~k)/τ)exp(sim(M~j,L~j)/τ)+j=1∑Blog∑k=1Bexp(sim(L~j,M~k)/τ)exp(sim(L~j,M~j)/τ))
其中sim(x,y) 表示x 和y 之间的余弦相似度,τ 是一个可学习的温度参数。
因此,我们在 MMLP 中定义最终的损失函数如下:
LMMLP=LALIGN+λLDM
其中λ 是一个超参数,用于控制LALIGN 和LDM 的权重。
Sign Language Translation
为了执行端到端的gloss-free SLT,我们首先继承了MMLP中的预训练网络。
在这种情况下,描述编码器ψde 不被使用,描述映射器ψdm 保持冻结,因为它仅用于预测SL描述。
因此,我们微调视觉编码器ψvis、模态适配器ψma 和多模态编码器ψenc。
给定手语视频SVi,我们提取多模态特征M~i。
随后,初始化的LLM解码器ψdec,其结构为12层的mBART解码器,将多模态特征M~i 作为输入,生成预测的口语句子SL^i=(SL^i,1,…,SL^i,Tˉ)。
在此过程中,(\psi_{dec}) 采用自回归方法,从特殊起始token <BOS>
开始翻译,并依次生成单词,直到序列结束token <EOS>
标记句子生成的结束。
我们训练模型以最小化预测 tokenSL^i,j 与真实 tokenSLi,j 之间的交叉熵损失,定义如下:
LSLT=−j=1∑Tˉlogp(SL^i,j∣SLi,1:j−1,SVi)
实验
主实验
消融实验
总结
在这项研究中,我们提出了MMSLT,这是一种gloss-free的SLT框架,首次利用了现成的MLLM。
我们利用MLLM通过精心设计的提示生成SL描述,将它们与手语图像结合以有效地表示手语。
我们引入了一个预训练模块,以将融合的模态与口语句子对齐,解决SLT中的模态差距。
此外,我们还提出了一种描述映射器,通过近似SL描述来减少MLLM在推理过程中的计算负担。
这项研究为在SLT中使用MLLM奠定了基础,并为该领域的未来探索开辟了新的途径。
小嗷犬
分享技术,记录生活
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 小嗷犬!