【论文笔记】Cross-lingual few-shot sign language recognition

小嗷犬2024-12-222025-06-01

基本信息

标题: Cross-lingual few-shot sign language recognition
作者: Yunus Can Bilge, Nazli Ikizler-Cinbis, Ramazan Gokberk Cinbis
发表: Pattern Recognition 2024

摘要

全球有超过150种手语，每种手语都有许多本地变体和数千种手势。

然而，为每种手语收集标注数据以训练模型是一项繁重且高度依赖专家的任务。

为了解决这一问题，本文提出了在跨语言环境下的少样本手语识别 (FSSLR) 问题。

核心动机是能够识别一种新的手势，即使该手势在训练过程中未曾见过，仅基于少量示例即可实现。

为了解决这一问题，我们提出了一种新颖的基于嵌入的框架，该框架首先提取基于视频和手部特征的时空视觉表示，以及手部关键点估计。

为了建立一个全面的测试基准，我们提出了三个覆盖多种语言的元学习 FSSLR 基准，并对所提出的框架进行了广泛评估。

实验结果表明，所提出方法在单语言和跨语言环境下的少样本手语识别任务中具有良好的效果和优越性。

介绍

单语言和跨语言少样本手语识别 (FSSLR) 的 2-way 1-shot 问题。

每一行表示一个手语类别的视频样本。

在单语言 FSSLR 中，训练集和测试集来自相同的手语；而在跨语言 FSSLR 中，训练样本和测试样本来自不同的手语。

方法

第一个模块使用 3D CNN 从输入视频数据和检测到的手部区域视频中提取分段特征。此外，获取手部关键点特征以建模手部形状信息。这些特征 ( $\mathbf{X}$ ) 随后通过多头自注意力机制（包括 $\mathbf{A}$ 和 $\mathbf{W}$ 值）进行处理，以获得初始视频表示。第二个模块负责学习基于视频表示模块聚合最具辨别性的手语表示 ( $\mathbf{c}$ )。为实现这一目标，我们使用基于分数的注意力策略来突出每种手语的最相关特征。基于最终的视频表示，通过计算输入与每个类别原型之间的距离来执行分类。

在本节中，我们首先解释问题定义，然后描述我们构建的表示形式，这涉及对手部信息的精确建模和基于注意力的特征提取流程，随后是基于原型的少样本学习模型。

问题定义：跨语言少样本手语识别

少样本手语识别（FSSLR）是指在仅有少量训练样本的情况下，识别来自任意手语的新手势的问题。我们将此问题置于元学习框架中：训练（测试）涉及对一系列任务 $T_1, T_2, \dots, T_n$ 的学习（评估），其中每个任务 $T_i$ 都有其自己的支持集和查询样本集 $D_i = \{D_i^{\text{train}}, D_i^{\text{test}}\}$ 。在元训练期间，为 $D_i^{\text{train}}$ 提供手势样本标签；在元测试期间，使用与 $D_i^{\text{test}}$ 对应的标签进行评估。

我们设计了一个元学习器 $g_\theta(\cdot)$ ，以参数 $\theta$ 为特征，使其能够基于给定任务的训练集生成任务特定的预测器 $h(\cdot)$ 。学习问题可以表示为优化元学习器模型参数 $\theta$ 以覆盖所有训练任务的目标函数：

\min_\theta \mathbb{E}_i \left[ \sum_{(x, y) \in D_i^{\text{test}}} \mathcal{L} \left( h(x | g_\theta(D_i^{\text{train}})), y \right) \right]

其中， $\mathcal{L}$ 是评估分类预测结果（针对给定测试样本 $x$ 和其真实标签 $y$ ）的损失函数。

视频表示

手语通常可以根据手形、手部运动和手部相对于身体的位置的组合来定义。受到这一点的启发，我们采用了一种基于手部的视觉表示方法。为此，我们对输入视频进行了如下预处理：

首先，使用 MediaPipe Hands 提取活跃手部区域和手部关键点估计值。这些关键点估计值被用作输入通道，如图 2 左下部分所示。

接下来，我们使用预训练的 3D-CNN 模型提取身体（即全帧输入流）和手部的视觉特征，如图 2 中间左侧和左上部分所示。

当我们提到身体特征的提取时，这意味着我们覆盖了一个广泛的视觉信息范围。这包括从整个场景捕获和处理视觉信息，确保我们的特征提取不仅限于特定区域，而是覆盖图像中显示的所有视觉内容。

另一方面，预训练的 3D-CNN 模型是一种强大的架构，专为视频分析设计，其扩展了 2D 卷积网络到 3D，通过使用膨胀滤波器来适应预训练的 2D 卷积网络，从而实现有效的时空视频表示。

这三种主要的表示通道，分别称为整体视频（overall video）、手部位置（hand location）和手部形状（hand shape，亦即手部关键点特征）。这些特征通过加入位置编码，最终被用作我们表示的构建块。

为了获得目标驱动的表示，我们探索了一种基于注意力的特征提取管道，该管道旨在共同捕获时空手语模式。我们首先通过一种多头自注意力（MSA）机制，对手形及其相关手部区域的上下文信息建模，该机制被称为注意力输入建模（AIS）网络。在此背景下，手形特征、手部区域特征和整体视频特征经过线性变换后被水平堆叠。这些拼接的特征（ $X$ ）被用作自注意力的键（key）、查询（query）和值（value）。每个张量的大小为 $R^{K \times d}$ ，其中 $K$ 是片段的数量， $d$ 是查询、键和值向量的公共维度。

在我们的方法中，片段被定义为连续的数据段。具体来说，在我们的方法中，我们以步幅为 4 处理 8 帧长的片段。这意味着具有 8 帧的连续数据段被处理，而连续片段之间的步长为 4 帧。基于自注意力公式，我们获得了两个值：基于自注意力的加权和值 $A$ 以及相关的自注意力权重 $W$ 。注意力权重 $W$ 是通过对注意力分数应用 softmax 获得的，而注意力分数是通过查询向量和键向量的点积计算的。基于自注意力的加权和值 $A$ 是通过将值 $V$ 与其对应的注意力权重 $W$ 相结合计算得到的。

尽管该方案相对简单，但这种公式避免了对单一信息来源的直接依赖，从而在处理之前的视频处理问题时提供了一定的鲁棒性。

时间特征聚合模块

表示提取管道的下一阶段是时间聚合。为了提升模型的整体性能，我们旨在实现一种有效的时间聚合机制，用于综合时间特征以捕获数据中的依赖关系。为此，我们设计了一种称为基于位置的注意力总结（LBAS, Location Based Attentive Summary）的时间聚合策略。受现有用于语音识别的基于位置敏感注意力方案的启发，我们针对具有多种输入类型的视频数据构建了这种方法，并基于多头注意力输出及其对应的注意力权重。我们的主要动机是以一种可训练的方式提取有用信息，不仅仅基于输入的所有特征（手形、手部区域和整体特征），还基于上一步中的注意力权重 $W$ 的位置信息。

更具体地说，LBAS 包含 (i) 一个卷积层，(ii) 三个线性层，以及 (iii) 一个偏置参数。给定初始提取的特征、MSA 输出以及相关注意力权重，以下内容被用作输入： $X \in R^{N \times d}$ 、 $A \in R^{N \times d}$ 和 $W \in R^{N \times N}$ ，其中 $d$ 是特征维度， $N$ 是序列（片段）长度（假设其为常量）。当 $N > K$ 时，目标是计算一个上下文向量 $c \in R^d$ ，该向量总结了序列。此方法对 $W$ 应用一维卷积（Conv1D）以结合来自之前自注意力分布 Conv1D(W) 的信息。结果得分张量（ $\Omega$ ）通过以下公式计算得到：

\Omega = \tanh(A L_1 + \text{Conv1D}(W)L_2 + XL_3 + b)

其中， $L_1, L_2, L_3$ 是全连接层， $b$ 是偏置项。

然后，我们对结果值应用 sigmoid 激活函数作为平滑运算符，并对其进行归一化以获得时间注意力权重 $\alpha$ ：

\alpha_i = \frac{\sigma(\Omega_i)}{\sum_{i=1}^{N} \sigma(\Omega_i)}

最终的视频表示，即上下文向量 $c$ ，通过对输入特征（ $X$ ）加权求和（权重为 $\alpha$ ）计算得到。

基于少数手部感知原型的学习

基于获得的视频表示，我们训练了一个使用基于度量的方法进行分类的模型。分类是通过计算输入和每个类别原型之间的距离来完成的，类似于中的方法。原型损失函数用于学习原型，使其在同类样本中彼此相似，而与其他类的样本相异。更正式地，我们学习了一个嵌入函数 $f_{\theta}(c)$ 。原型基于支持样本的嵌入来定义：

p_y = \frac{1}{|S_y|} \sum_{(x_i, y_i) \in S_y} f_{\theta}(c_i) \tag{4}

对于给定的测试样本表示 $c'$ 和类别 $\gamma \in v$ ，类别分布通过 softmax 计算如下：

P(y = k | c') = \frac{\exp(-d_{\phi}(f_{\theta}(c'), P_k))}{\sum_{k'} \exp(-d_{\phi}(f_{\theta}(c), P_{k'}))} \tag{5}

其中，距离函数 $d_{\phi}$ 是简单的平方欧几里得距离：

d_{\phi}(p, q) = \|q - p\|^2 \tag{6}

我们使用了基于情节（episodic）元学习框架来训练模型。每个情节 $T_j = \{T_1, T_2, ..., T_n\}$ 包含两组数据集：支持集 $S = \{(x_{1,1}, y_{1,1}), (x_{1,2}, y_{1,2}), ..., (x_{n,k}, y_{n,k})\}$ 和查询集 $Q = \{q_{1, q_2, ..., q_{n \times m}}\}$ ，其中 $n$ 是手语术语的数量， $k$ 是标注手语样本的数量。我们专注于 $n$ -way $k$ -shot 问题，其中 $n$ 和 $k$ 可以分别设置为 5 或 20，以及 1 或 5。

我们的目标是在每个任务中，相对于支持集正确分类每个查询视频。测试过程将数据划分为情节，类似于训练过程，包含支持集和查询集。基于提出的手语表示方法，计算每个类别支持集中特征向量的均值作为类别的原型。然后，通过测量查询样本和类别原型之间的距离来确定查询标签。基于测量的距离，评估模型性能。

建议的基准数据集

实验

总结

现有手语方法的一个重要限制是对大量标注样本的依赖。为了缓解这种依赖性，我们提出了一种专门针对手语的基于小样本学习（few-shot learning）的策略。我们通过少量标注样本学习判别性手语表示，并利用这种方法识别未知的手语标志。在我们提出的框架中，体系结构被设计为全面整合手语的关键组成部分，包括手势形状、手部位置以及整体身体特征。该框架在小样本学习设置下，通过情景化训练（episodic training）学习时空手语表示。

我们进行了涵盖单语言和跨语言实验设置的评估，以验证所提出框架在不同手语环境中的鲁棒性和泛化性。通过跨语言评估协议，我们表明，所提出的方法具有可扩展性，能够识别世界范围内的任何手语。总体而言，实验结果证明了我们方法的有效性，在提出的单语言和跨语言基准中达到了最先进的性能。

手语识别中一个基本的挑战在于数据有限的情况下，各种手势之间的高相似性。这种情况使得手语之间本质上很难区分。这种复杂性突出了开发适当表示框架的必要性，该框架能够有效地区分基于有限数据的手语的细微差别。未来的工作应通过开发更复杂的视觉表示和识别模型来克服现有局限性，这些模型能够捕捉更细致的细节。我们相信，基于小样本学习的手语识别（FSSLR）是一个值得探索的重要方向，这项工作可能会为手语识别在单语言和多语言背景下提供新的见解。