其中 表示停止梯度操作符,该操作符在前向计算时被定义为恒等,并且具有零偏导数, 表示模态 的教师编码器从未标注目标数据 中提取的特征:
在多模态蒸馏阶段的最终训练损失是每种模态对应这些损失的线性组合:
计算成本是实时应用或资源有限设备上推理的一个基本问题。处理动作识别 Transformer 模型的输入帧中的所有 token 计算成本较高;然而,可以通过调节输入帧中使用的 token 数量来控制计算成本。
一方面,现有使用 ViT 架构的方法处理输入帧中的所有 token,以实现强大的动作识别性能,但这会带来较高的计算成本。注意力机制的计算复杂度为,其中 表示输入 token 的数量。另一方面,减少输入 token 的数量有助于降低计算成本,但会导致性能下降。
为此,我们提出了集成掩码推理(ensemble masked inference),通过以掩码比率 掩盖部分输入 token,减少输入 token 的数量,从而降低计算成本。此外,通过利用集成预测的集成数量,可以缓解性能下降。计算复杂度因此为:
根据现有的研究工作,我们学习了一个新的分类器,以适配目标域中新类别的少量标注数据。RGB 学生编码器(RGB student encoder)被保留,分类器头部 在编码器的基础上进行训练,使用来自支持集 的采样 类 样本数据进行训练。
在小样本训练过程中,将管状掩码(Tube Masking)应用于输入数据,并使用掩码比率。这种方法使得模型能够在推理时基于掩码输入做出预测。需要注意的是,管状掩码在支持集的输入数据中是变化的,以防止模型过于依赖相同的掩码模式,因为这可能会无意中掩盖掉所有重要的内容。
一旦分类器 适应了目标域中的新类别,将从查询集 的每个 类中提取 个样本用于评估小样本动作识别。我们应用了 Tube Masking,并使用在小样本训练中相同的掩码比例。根据准确性和推理速度之间的权衡需求,使用了不同的掩码比例。调整掩码比例可以根据具体应用场景的计算约束或精度需求,优化模型性能。此外,我们采用集成学习来缓解由掩码输入帧引起的性能下降。通过对一个样本应用不同的 Tube Masking,生成 个数据,然后对预测概率取平均值:
总结。我们提出了 MM-CDFSL,这是第一个在跨领域和小样本环境中探索用于第一视角动作识别的多模态数据的方法。我们在第一个预训练阶段为每种输入模态单独训练模型,以获得领域适应性和类别区分性特征。然后,我们使用教师模型对所有模态进行多模态蒸馏,将特征传递到学生 RGB 模型中,以进一步减小领域间的差距。此外,我们提出了集成掩码推理,通过掩码输入帧减少推理期间的计算成本,同时通过集成学习缓解性能下降。在来自三个领域(EPIC-Kitchens、MEC-CANO 和 WEAR 数据集)的第一视角数据集上的实验表明,与现有的未标注目标数据方法相比,我们的方法在动作识别准确性和推理速度方面均优于最先进的跨领域小样本学习(CD-FSL)方法。
局限性和未来工作。我们提出的方法利用了基于现成的光流估计器和 2D 手部关键点检测器的光流和 2D 手部关键点。因此,这些现成检测器的偏差和错误可能仍会影响输入模态信息。此外,我们的方法在多模态蒸馏过程中对特征蒸馏损失应用了固定的损失权重,而不考虑具体目标数据集的差异。这种策略未能考虑到基于目标领域的不同模态重要性的变化,例如,在室外环境中,运动信息可能比手部姿态数据更重要。根据模态在目标领域中的相关性动态调整蒸馏权重,对于实现更有针对性和高效的训练结果至关重要。我们将把这一部分留给未来的研究。