【论文笔记】CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning

小嗷犬2024-12-222025-04-15

基本信息

标题: CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning
作者: Yiting Cheng, Fangyun Wei, Jianmin Bao, Dong Chen, Wenqiang Zhang
发表: CVPR 2023
arXiv: https://arxiv.org/abs/2303.12793

摘要

这项工作聚焦于手语检索——这是一个最近提出的手语理解任务。

手语检索由两个子任务组成：文本到手语视频检索（T2V）和手语视频到文本检索（V2T）。

与传统的视频-文本检索不同，手语视频不仅包含视觉信号，还因其作为自然语言的特性而具有丰富的语义信息。

基于这一特性，我们将手语检索形式化为一个跨语言检索问题，同时也是一个视频-文本检索任务。

具体而言，我们考虑了手语和自然语言的语言学特性，同时识别精细的跨语言（即手语-单词）映射，并在对比文本和手语视频的过程中，将它们投影到一个联合嵌入空间中。此过程被称为跨语言对比学习。

另一个挑战来源于数据稀缺问题——手语数据集的规模相比语音识别而言小了好几个数量级。

我们通过采用一个经过大规模手语视频数据预训练的领域无关手语编码器，并使用伪标签将其适配到目标领域，来缓解这一问题。

我们的框架称为基于跨语言对比学习的领域感知手语检索（简称CiCo），在多个数据集上的表现远超现有方法，例如在How2Sign数据集上的T2V检索精度（R@1）提升了+22.4，V2T检索精度（R@1）提升了+28.0；在PHOENIX-2014T数据集上的T2V检索精度（R@1）提升了+13.7，V2T检索精度（R@1）提升了+17.1。

代码和模型可在以下地址获取：
https://github.com/FangyunWei/SLRT

介绍

方法

任务形式

令 $\mathcal{V}$ 和 $\mathcal{T}$ 分别表示一组手语视频及其对应的文本（转录）。手语检索由两个任务组成，分别是文本到手语视频检索（T2V）和手语视频到文本检索（V2T）。T2V 的目标是找到一个手语视频 $v \in \mathcal{V}$ ，其内容与文本查询最匹配。相对地，V2T 是逆向任务，要求模型在给定手语视频查询的情况下，从 $\mathcal{T}$ 中找到最相关的文本（转录） $t \in \mathcal{T}$ 。

我们通过学习手语视频和文本的联合嵌入空间，解决了手语检索问题。

手语编码器

使用滑动窗口处理手语视频

手语检索数据集中的手语视频通常包含数百帧。为了高效训练模型并降低GPU内存使用，我们对给定的手语视频采用滑动窗口方法，窗口步长为1，窗口大小为16，从而生成 $M$ 个时间上有重叠的剪辑。接下来，我们将每个剪辑单独输入手语编码器以提取其特征。最终的手语视频特征通过沿时间维度堆叠来自 $M$ 个剪辑的特征生成。一个强大的手语编码器至关重要。

手语编码器概述

最近在手语识别领域的进展极大地促进了大规模手语数据集的收集，使卷积神经网络在手语分类任务中的强大表征学习能力成为可能。此前的方法已经证明了将基于大规模手语识别数据预训练的手语编码器迁移到下游任务的可行性。我们遵循这一实践，使用在 BSL-1K 数据集（一个通过手语识别收集的手语分类数据集）上预训练的I3D网络作为主要的手语编码器。由于其出色的迁移性能，我们将该模型称为领域无关的手语编码器。

然而，BSL-1K数据集与手语检索数据集之间的领域差距不可忽视。为了解决这一问题，我们进一步通过伪标签对目标数据集上的领域感知手语编码器进行微调，其架构与领域无关的手语编码器相同。最终的手语编码器由优化良好的领域感知手语编码器和强大的领域无关手语编码器组成，如图3a所示。

目标数据集上的伪标签生成

现在我们描述伪标签生成的具体细节。对于目标数据集中的一个手语视频，我们采用步长为1、窗口大小为16的滑动窗口方法，生成一组时间上有重叠的剪辑。对于每个剪辑，我们首先利用预训练的领域无关手语编码器生成预测结果。然后，我们根据预定义的阈值 $\lambda$ 将预测结果二值化，以生成相应的伪标签。对于最大得分低于 $\lambda$ 的无效样本，将其过滤掉。我们对所有手语视频重复上述过程，最终构建一个伪标签集合。

我们的领域感知手语编码器以领域无关手语编码器为初始化基础，通过标准的交叉熵损失函数在伪标签集合上进行微调，以完成分类训练。

使用手语编码器进行特征提取

到目前为止，我们已经获得了一个大致与目标领域对齐的领域感知手语编码器。然而，其能力受到伪标签中不可避免的噪声以及伪标签样本数量有限的限制。回想一下，我们手中已经有一个在大规模数据集上预训练的强大的领域无关手语编码器，这启发我们同时利用领域无关手语编码器 $h_{\xi}(\cdot)$ 和领域感知手语编码器 $h_{\theta}(\cdot)$ 来提取判别性和领域对齐的特征。

如图 3a 所示，我们的最终手语编码器 $H(\cdot)$ 是 $h_{\xi}(\cdot)$ 和 $h_{\theta}(\cdot)$ 的加权组合，使用一个折中超参数 $\alpha$ 。如上所述， $H(\cdot)$ 以滑动窗口的方式对手语视频进行编码。为了简化，我们使用 $H(v)$ 表示对手语视频 $v$ 进行特征提取，其公式如下：

H(v) = \alpha h_{\xi}(v) + (1 - \alpha) h_{\theta}(v)

跨语言对比学习

跨语言对比学习（CLCL）的目标是学习一个手语视频和文本的联合嵌入空间，同时在训练过程中识别细粒度的手语到单词的映射。如图 3b 所示，CLCL 接收一个包含 $N$ 个手语视频-文本对的迷你批次 $\{(v_n, t_n)\}_{n=1}^N$ 作为输入，并在共享的嵌入空间中对这些成对数据进行对比，用于手语检索。

手语特征和单词特征

给定一个手语视频 $v \in \{v_n\}_{n=1}^N$ ，我们首先使用第 3.2 节中描述的手语编码器 $H(\cdot)$ 来提取其中间特征。需要注意的是， $H(\cdot)$ 以滑动窗口的方式对手语视频进行编码，因此不同视频片段之间没有交互。为了促进信息交换，我们进一步在 $H(\cdot)$ 的基础上附加了一个 12 层的 Transformer $F(\cdot)$ ，用于从手语视频 $v$ 中提取手语特征 $S$ ，其公式如下：

S = F(H(v)) \in \mathbb{R}^{M \times D}

其中， $M$ 表示片段数量， $D$ 表示隐藏维度。

对于给定的文本 $t \in \{t_n\}_{n=1}^N$ ，我们将 $t$ 转换为小写的字节对编码（BPE）表示，然后输入另一个 12 层的 Transformer $G(\cdot)$ ，以生成单词特征 $W$ ：

W = G(t) \in \mathbb{R}^{L \times D}

其中， $L$ 表示单词数量。

由于 CLIP 在各种下游任务中表现出卓越的迁移能力，我们使用 CLIP 的图像编码器（ViT-B）和文本编码器分别初始化 $F(\cdot)$ 和 $G(\cdot)$ ，以简化学习过程。虽然 CLIP 的视觉编码器以图像块作为输入，但实验发现它在我们的场景中具有很好的泛化能力，即使输入数据是不同模态的。

跨语言相似性

手语与自然语言之间存在固有的“手势到单词”的映射关系。为了将这一先验知识融入学习中，我们引入了跨语言相似性——一种用于识别第 $i$ 个手语视频 $v_i$ 和第 $j$ 个文本 $t_j$ 之间“手势到单词”映射的指标。具体而言，给定手语特征 $S_i \in \mathbb{R}^{M \times D}$ （对应 $v_i$ ）和单词特征 $W_j \in \mathbb{R}^{L \times D}$ （对应 $t_j$ ），我们计算跨语言相似性矩阵 $E(i, j) = S_i \cdot W_j^T \in \mathbb{R}^{M \times L}$ 。矩阵 $E(i, j)$ 中的每个元素表示 $v_i$ 中某个手语片段与 $t_j$ 中某个单词的相似度。

跨语言对比学习

由于缺乏细粒度的“手势到单词”标注信息，直接对基于token的相似性矩阵 $E(i,j)$ 应用监督是不切实际的。受到近期视觉-语言对比学习进展的启发，我们转而对手语视频和文本的全局表示进行对比。其核心思想是基于相似性矩阵 $E(i,j) \in \mathbb{R}^{M \times L}$ 计算 $v_i$ 和 $t_j$ 之间的全局相似性 $z$ 。

手语视频到文本对比

我们首先引入了如图 3b 所示的手语视频到文本的对比方法。具体来说，我们对相似性矩阵 $E(i,j)$ 的每一行应用 Softmax 操作，生成一个重新加权的手语到文本相似性矩阵 $E'(i,j) \in \mathbb{R}^{M \times L}$ ，其中每一行表示视频 $v_i$ 中的一个手语片段与文本 $t_j$ 的所有单词之间的相似性。然后，我们对 $E'(i,j)$ 的每一行进行加法操作，得到手语到文本的相似性向量 $e(i,j) \in \mathbb{R}^M$ ，其中每个元素表示 $v_i$ 的一个片段与 $t_j$ 整体文本的相似性。最后，我们对 $e(i,j)$ 的所有元素取平均值，得到 $v_i$ 和 $t_j$ 的全局相似性 $z$ 。

同样，我们可以计算小批量中的正样本对 $\{(v_i, t_i)\}_{i=1}^N$ 和负样本对 $\{(v_i, t_j)\}_{i=1, j=1, i\neq j}^N$ 的相似性，生成一个视频到文本的相似性矩阵 $Z^{V2T} \in \mathbb{R}^{N \times N}$ ，其中 $Z^{V2T}(i,j)$ 表示 $v_i$ 和 $t_j$ 的全局相似性。

参考 CLIP 的方法，我们采用 InfoNCE 损失函数，以拉近匹配的视频-文本对的嵌入，同时推远不匹配对的嵌入，其公式如下：

\begin{split} \mathcal{L}_{V2T} = &-\frac{1}{2N} \sum_{i=1}^N \log \frac{\exp(Z^{V2T}(i,i)/\tau)}{\sum_{j=1}^N \exp(Z^{V2T}(i,j)/\tau)} \\ &-\frac{1}{2N} \sum_{j=1}^N \log \frac{\exp(Z^{V2T}(i,i)/\tau)}{\sum_{i=1}^N \exp(Z^{V2T}(i,j)/\tau)} \end{split}

其中， $\tau$ 是一个可训练的温度参数。

文本到手语视频对比

到目前为止，我们已经介绍了手语视频到文本的对比方法。这里引入一种对称的方法，称为“文本到手语视频对比”，其核心思想与图 3b 中所示的手语视频对文本对比相似。文本到手语视频对比的实现非常简单：我们将手语视频到文本对比中的行操作（例如，Softmax 和加法）替换为列操作，其他过程保持不变。我们用 $\mathcal{L}_{T2V}$ 表示文本到手语视频对比的损失函数。

在我们的实现中，我们复用了上文中定义的损失函数，但将输入替换为文本到视频的相似性矩阵 $Z^{T2V}$ 。

损失函数

跨语言对比学习的总体损失函数是 $\mathcal{L}_{V2T}$ 和 $\mathcal{L}_{T2V}$ 的加权和，其中权衡超参数为 $\beta$ ：

\mathcal{L} = \beta \mathcal{L}_{V2T} + (1 - \beta) \mathcal{L}_{T2V}

文本增强

鉴于手语检索的数据集通常规模较小，我们探索了文本增强方法，以提高我们方法的泛化能力。EDA 在文本分类任务中引入了三种简单而高效的数据增强方法：随机删除（random delete）会随机删除句子中的单词；同义词替换（synonym replacement）会从句子中随机选择非停用词并用同义词替换；随机交换（random swap）会随机选择句子中的两个单词并交换它们的位置。

前两种增强方法在文本分类任务中已被证明是有效的。然而，我们的实验表明，针对手语检索的任务对随机删除和同义词替换这两种增强方法较为敏感。为了确保增强后的文本保留原始语义，我们在方法中仅采用了随机交换的增强策略。我们推测这有以下两个原因：

手语和自然语言的单词顺序在构造上本质不同，因此重新排序不会影响语义；
所提出的跨语言对比学习对单词顺序不敏感。

实验

主实验

消融实验

总结

在本文中，我们提出了一种名为跨语言对比学习（CiCo）的新框架，用于最近引入的手语检索任务。我们将手语检索表述为一个跨语言检索任务，同时也视为一个视频-文本检索问题。CiCo 通过提出的跨语言对比学习建模了手语视频和文本之间的细粒度跨语言映射关系。

此外，我们引入了一种手语编码器，该编码器由一个领域无关的编码器和一个领域感知的编码器组成，用以提取判别性和领域对齐的特征。我们的 CiCo 在 How2Sign 和 PHOENIX-2014T 基准测试上，相较于先驱方法 SPOT-ALIGN 取得了显著的超越。我们还在 CSL-Daily 数据集上提供了一个基线。

我们希望我们的方法能够作为未来研究的坚实基线。