来自 Sign Features, 来自 Textual Features, 为可学习参数(对于每个注意力头)。
对数据集的口语文本进行词形还原(Phoenix14T)和分词(CSLDaily),然后根据词性保留部分词(名词、数词、副词、代词、专有名词、形容词、动词)作为伪gloss。
由于这样得到的伪gloss为口语顺序而不是手语顺序,所以无法直接使用CTC损失训练模型。
将从数据集提取出的 个伪gloss嵌入为 维的原型,用于与 帧的视频进行相似度计算,最后按视频整合其每一帧的相似度,以此预测视频包含该原型的可能性,最后对每个原型使用二分类交叉熵进行训练。
手语翻译任务微调。
Phoenix14T上的结果。
PGP: 伪gloss预训练(pseudo-gloss pretraining)
CSL-Daily上的结果。
伪gloss在视频中出现位置的可视化。
在这篇论文中,我们提出了一种新的方法来解决gloss-free环境下手语翻译的难题。
我们的方法Sign2GPT在Phoenix14T和CSL-Daily数据集上,相较于现有最先进的技术,展现了显著的性能提升。
我们引入了一种新的预训练策略,通过自动生成的伪gloss学习词汇级的手语特征,从而使得我们的手语编码器能够在不使用人工标注的gloss的情况下进行有效预训练。
此外,所提出的Sign2GPT架构为探索将视觉特征融合到口语语言模型中,以用于手语识别和翻译任务提供了有前景的方向。