【论文笔记】Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition

基本信息

标题: Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition
作者: Masashi Hatano, Ryo Hachiuma, Ryo Fujii, Hideo Saito
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2405.19917

基本信息

摘要

我们研究了一种新颖的跨域小样本学习任务(CD-FSL),该任务采用多模态输入和未标注的目标数据来进行第一人称视角(egocentric)动作识别。

本文同时解决了CD-FSL场景下第一人称动作识别的两个关键挑战:(1)第一人称视频(如日常生活 vs 工业领域)中极大的域间差异,以及(2)现实应用中的计算成本。

我们提出了MM-CDFSL,这是一种域自适应且计算效率高的方法,旨在增强对目标域的适应性并降低推理成本。

为了解决第一个挑战,我们提出将多模态蒸馏引入到学生RGB模型中,使用教师模型进行训练。

每个教师模型分别在其对应模态的源域和目标域数据上独立训练。

通过在多模态蒸馏过程中仅利用未标注的目标域数据,提升了学生模型对目标域的适应性。

我们进一步引入了集成掩码推理(ensemble masked inference),这是一种通过掩码减少输入标记数量的技术。

在这种方法中,集成预测缓解了因掩码导致的性能下降,从而有效解决了第二个问题。

我们的方法在多个第一人称数据集上相较于最先进的CD-FSL方法实现了显著的性能提升,在1-shot/5-shot场景下平均提高了6.12/6.10分,同时推理速度提升了2.2倍。

项目页面:https://masashi-hatano.github.io/MM-CDFSL/

主要贡献

  • 我们提出了一种新颖、具有挑战性但实际可行的问题:在第一人称场景中,利用多模态输入和未标注的目标数据进行跨域小样本学习(CD-FSL)。
  • 我们提出了MM-CDFSL,这是一种针对第一人称动作识别任务的新方法,利用了域自适应和类别区分的预训练以及多模态特征蒸馏。此外,我们提出了集成掩码推理方法,以降低计算成本。
  • 我们在多个第一人称动作识别基准测试(如[1, 5, 40])的CD-FSL设置中,同时在精度和推理速度上实现了最先进的性能。具体来说,我们的方法在1-shot/5-shot设置下,平均精度比先前的最优方法高出6.12/6.10分,同时推理速度提高了2.2倍。

方法

我们提出的方法包括两个元训练阶段和两个元测试阶段:第一个阶段涉及域自适应和类别区分的特征预训练,第二个阶段通过多模态蒸馏提升域的适应性,第三个阶段利用标注的小样本训练集训练分类器以适配新的类别,第四个阶段在减少推理时间的同时,推断查询数据的动作类别。

我们首先介绍了一种新的跨域小样本学习任务的设置,该任务使用多模态输入和未标注的目标数据。然后,我们介绍了所提出的方法,包括(1)预训练、(2)多模态蒸馏、(3)小样本训练以及(4)集成掩码推理。

图2提供了我们方法的概览。

The framework of our proposed method

为便于理解,以下章节以RGB、光流和手部姿态热图(称为手部姿态)作为多模态信息,这些被认为是第一人称动作识别的有效模态信息。然而,我们的方法可以使用任何模态信息(例如,IMU、音频)。

以下是这段文字的翻译:

问题定义

跨域小样本学习(CD-FSL)任务的目标是在多模态输入和未标注目标数据的情况下,分类目标数据集DTD_T 中的新类别。该任务利用了标注的源数据集DSD_S 和未标注的目标数据集DTuD_{T_u}DSD_SDTD_T 均由mm 种模态的数据组成。为了保持小样本学习框架的完整性,需确保源数据集与目标数据集之间的类别不重叠。

为了在目标数据集中推断新的类别,未标注的目标数据集DTuD_{T_u} 被分为一个支持集SS 和一个查询集QQ。支持集SS 包含来自NN 个类别中每类KK 个样本的数据(即NN-wayKK-shot 任务),查询集QQ 只包含支持集中的NN 个类别的数据,与标准小样本学习设置相同。

域自适应与类别区分特征预训练

在预训练阶段,针对每种模态的 VideoMAE 被独立训练,用于学习源域和目标域之间共享的表示以及源域上的区分特征。

训练通过两个目标函数实现:

  1. 联合重建源域和目标域数据;
  2. 在源数据集上进行动作类别的分类。

与 CDFSL-V 中的预训练阶段相比(该方法仅在源域和目标域数据上进行重建以缓解域偏移),我们通过联合优化上述两个目标来训练模型,以有效学习共享且具有区分性的特征表示。

具体而言,给定一个输入xmRT×Hm×Wm×Cmx_m \in \mathbb{R}^{T \times H_m \times W_m \times C_m},它由TT 帧图像组成,每帧的尺寸为Hm×WmH_m \times W_m,通道数为CmC_m,对应于模态m{RGB, optical flow, hand pose heatmap}m \in \{\text{RGB, optical flow, hand pose heatmap}\}。我们为每个模态mm 训练一个 VideoMAE,该模型由编码器(特征提取器)EmE_m 和解码器DmD_m 组成。

在 VideoMAE 的训练框架中,经过分词的输入数据会以 Tube Maskingψ\psi 随机屏蔽,屏蔽比例为ρpretrain\rho_{\text{pretrain}},然后按以下方式重建:

x^m=Dm(Em(ψ(xm)))\hat{x}_m = D_m(E_m(\psi(x_m)))

其中x^m\hat{x}_m 表示重建的输入。此外,分类器GmG_m 被用来处理从EmE_m 提取的平均嵌入特征,并估计源数据集中类别的逻辑值(logit)lmRncl_m \in \mathbb{R}^{n_c}(其中ncn_c 表示源数据集中类别的数量),计算公式如下:lm=Gm(Em(ψ(xm)))l_m = G_m(E_m(\psi(x_m)))

我们对每种模态分别训练EmE_mDmD_mGmG_m,并结合三种损失函数进行优化:源数据的重构损失Lreconsource\mathcal{L}_{\text{recon}}^{\text{source}},目标数据的重构损失Lrecontarget\mathcal{L}_{\text{recon}}^{\text{target}},以及源数据集上动作分类的交叉熵损失Lcesource\mathcal{L}_{\text{ce}}^{\text{source}}。源数据集的交叉熵损失通过平衡超参数λcem\lambda_{\text{ce}_m} 进行调整:

Lpretrain=Lreconsource+Lrecontarget+λcemLcesource\mathcal{L}_{\text{pretrain}} = \mathcal{L}_{\text{recon}}^{\text{source}} + \mathcal{L}_{\text{recon}}^{\text{target}} + \lambda_{\text{ce}_m} \mathcal{L}_{\text{ce}}^{\text{source}}

注意,我们仅针对有标签的源数据计算Lcesource\mathcal{L}_{\text{ce}}^{\text{source}},并采用L2L_2 损失来计算重构损失。

多模态蒸馏

接下来,我们通过将领域自适应的多模态特征蒸馏到 RGB 特征提取器ERGBE_{RGB} 中,进一步提高目标领域的适应性。相比仅使用 RGB 模态,多模态的使用有助于缓解源领域和目标领域之间的领域偏移,因为视觉信息容易受到光照、背景和外观变化的影响。引入光流和手部姿态等额外模态能够提供对这些视觉变化不太敏感的互补信息。此外,将领域自适应且类别判别性强的多模态特征蒸馏到 RGB 模态中,可以在减轻模型复杂性的同时缓解领域差距。这一过程旨在赋予 RGB 模型以多模态学习的领域自适应特性,而无需在推理过程中处理和整合多种模态数据类型的额外开销。

针对未标注的目标数据xmtargetx^{\text{target}}_m 的多模态输入,我们使用教师模型EmteacherE^{\text{teacher}}_m 对所有模态(包括 RGB)对学生 RGB 编码器ERGBstudentE^{\text{student}}_{\text{RGB}} 进行训练。从 RGB 模态中蒸馏特征的目的是确保多模态蒸馏可以从其他模态中进行正则化,以防止遗忘 RGB 元素并对其他模态产生偏差。需要注意的是,所有学生和教师编码器都从上一节中领域自适应和类别判别的预训练权重初始化,并且在多模态蒸馏阶段,教师编码器的权重保持冻结。此外,我们像之前的自监督训练一样对输入标记进行掩码处理,并在所有模态上使用相同的掩码比例ρdistill\rho_{\text{distill}}。采用这种掩码是因为模型需要基于推理时的掩码输入进行预测(详见 3.4 节)。未标注的目标 RGB 数据被输入学生 RGB 编码器;随后,提取的特征通过投影层(例如,多层感知器)Mm\mathcal{M}_m 投影到各模态中:

f^m=Mm(ERGBstudent(ψ(xRGBtarget)))\hat{f}_m = \mathcal{M}_m \left( E^{\text{student}}_{\text{RGB}} \left( \psi \left( x^{\text{target}}_{\text{RGB}} \right) \right) \right)

其中f^m\hat{f}_m 是从 RGB 投影到模态mm 的特征。

我们旨在最小化其与模态mm 的真实嵌入的L2L_2 距离。具体而言,损失被计算为对应于每种模态的L2L_2 损失的线性组合,并且特征蒸馏损失定义如下:

Lfdm=sg[fm]f^m22\mathcal{L}_{fd_m} = \left\| \text{sg}[f_m] - \hat{f}_m \right\|_2^2

其中sg[.]\text{sg}[.] 表示停止梯度操作符,该操作符在前向计算时被定义为恒等,并且具有零偏导数,fmf_m 表示模态mm 的教师编码器从未标注目标数据xmtargetx_m^{\text{target}} 中提取的特征:

fm=Emteacher(ψ(xmtarget))f_m = \mathcal{E}_m^{\text{teacher}}\left(\psi(x_m^{\text{target}})\right)

在多模态蒸馏阶段的最终训练损失是每种模态对应这些损失的线性组合:

Ldistill=mLfdm\mathcal{L}_{\text{distill}} = \sum_m \mathcal{L}_{fd_m}

集成掩码推理

计算成本是实时应用或资源有限设备上推理的一个基本问题。处理动作识别 Transformer 模型的输入帧中的所有 token 计算成本较高;然而,可以通过调节输入帧中使用的 token 数量来控制计算成本。

一方面,现有使用 ViT 架构的方法处理输入帧中的所有 token,以实现强大的动作识别性能,但这会带来较高的计算成本。注意力机制的计算复杂度为O(I2)\mathcal{O}(I^2),其中II 表示输入 token 的数量。另一方面,减少输入 token 的数量有助于降低计算成本,但会导致性能下降。

为此,我们提出了集成掩码推理(ensemble masked inference),通过以掩码比率ρinfer\rho_{\text{infer}} 掩盖部分输入 token,减少输入 token 的数量,从而降低计算成本。此外,通过利用集成预测的集成数量PP,可以缓解性能下降。计算复杂度因此为:

O(P((1ρinfer)I)2)\mathcal{O}(P((1 - \rho_{\text{infer}})I)^2)

小样本训练

根据现有的研究工作,我们学习了一个新的分类器,以适配目标域中新类别的少量标注数据。RGB 学生编码器(RGB student encoder)被保留,分类器头部GG' 在编码器的基础上进行训练,使用来自支持集SS 的采样NNKK 样本数据进行训练。

在小样本训练过程中,将管状掩码(Tube Masking)应用于输入数据,并使用掩码比率ρinfer\rho_{\text{infer}}。这种方法使得模型能够在推理时基于掩码输入做出预测。需要注意的是,管状掩码在支持集的输入数据中是变化的,以防止模型过于依赖相同的掩码模式,因为这可能会无意中掩盖掉所有重要的内容。

推理

一旦分类器GG' 适应了目标域中的新类别,将从查询集QQ 的每个NN 类中提取qq 个样本用于评估小样本动作识别。我们应用了 Tube Maskingψ\psi,并使用在小样本训练中相同的掩码比例ρinfer\rho_{\text{infer}}。根据准确性和推理速度之间的权衡需求,使用了不同的掩码比例ρinfer\rho_{\text{infer}}。调整掩码比例可以根据具体应用场景的计算约束或精度需求,优化模型性能。此外,我们采用集成学习来缓解由掩码输入帧引起的性能下降。通过对一个样本应用不同的 Tube Masking,生成PP 个数据,然后对预测概率取平均值:

y^=1PpSoftmax(G(ERGB(ψ(xRGB))))\hat{y} = \frac{1}{P} \sum_{p} \text{Softmax}\left(G'(E_{\text{RGB}}(\psi(x_{\text{RGB}})))\right)

实验

主实验

Cross-domain few-shot action recognition accuracy

Inference cost

消融实验

Loss component ablation study in the pretraining stage

Ablation study on the multimodal distillation stage

Accuracy vs. inference time

总结

总结。我们提出了 MM-CDFSL,这是第一个在跨领域和小样本环境中探索用于第一视角动作识别的多模态数据的方法。我们在第一个预训练阶段为每种输入模态单独训练模型,以获得领域适应性和类别区分性特征。然后,我们使用教师模型对所有模态进行多模态蒸馏,将特征传递到学生 RGB 模型中,以进一步减小领域间的差距。此外,我们提出了集成掩码推理,通过掩码输入帧减少推理期间的计算成本,同时通过集成学习缓解性能下降。在来自三个领域(EPIC-Kitchens、MEC-CANO 和 WEAR 数据集)的第一视角数据集上的实验表明,与现有的未标注目标数据方法相比,我们的方法在动作识别准确性和推理速度方面均优于最先进的跨领域小样本学习(CD-FSL)方法。

局限性和未来工作。我们提出的方法利用了基于现成的光流估计器和 2D 手部关键点检测器的光流和 2D 手部关键点。因此,这些现成检测器的偏差和错误可能仍会影响输入模态信息。此外,我们的方法在多模态蒸馏过程中对特征蒸馏损失应用了固定的损失权重,而不考虑具体目标数据集的差异。这种策略未能考虑到基于目标领域的不同模态重要性的变化,例如,在室外环境中,运动信息可能比手部姿态数据更重要。根据模态在目标领域中的相关性动态调整蒸馏权重,对于实现更有针对性和高效的训练结果至关重要。我们将把这一部分留给未来的研究。