【论文笔记】CLIP4Clip An empirical study of CLIP for end to end video clip retrieval and captioning

基本信息

标题: CLIP4Clip An empirical study of CLIP for end to end video clip retrieval and captioning
作者: Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li
arXiv: https://arxiv.org/abs/2104.08860

基本信息

摘要

视频片段检索和视频描述任务在多模态研究中扮演着至关重要的角色,是多模态理解和生成的基础研究问题。

CLIP(对比语言-图像预训练)模型展示了从网络收集的图像-文本数据集中学习视觉概念的力量。

在本文中,我们提出了一种CLIP4Clip模型,以端到端的方式将图像-文本预训练的CLIP模型的知识迁移到视频-文本任务

此外,我们进行了多项实证研究,包括:

  1. 图像特征是否足以用于视频-文本检索和视频描述?
  2. 基于CLIP在大型视频-文本数据集上的后预训练如何影响性能?
  3. 建模视频帧之间时间依赖关系的实际机制是什么?
  4. 模型的超参数敏感性。

大量的实验结果表明,从CLIP迁移过来的CLIP4Clip模型在包括MSR-VTT、MSVD、LSMDC和DiDeMo在内的多种视频-文本数据集上,在多模态理解和生成任务上可以达到最先进的结果。

模型

CLIP4Clip的整体框架

CLIP4Clip的框架包括三个部分,包括Text Encoder(Transformer)、Video Encoder(ViT)和Similarity Calculator。

Text Encoder和Video Encoder的模型参数都使用CLIP(ViT-B/32)初始化。

在本工作中,作者研究了三种类型的相似度计算机制,包括Parameter-free Type、Sequential Type和Tight Type。

训练

Pre-training

从Howto100M数据集中选取了“食品与娱乐”类别的约38万个视频,在本文中称为Howto100M-380k。

类似CLIP的训练方式。

Captioning Training

在Video Encoder后接了一个Decoder,对比学习损失与生成损失一起训练。

实验

视频检索

文本到视频检索在MSR-VTT数据集上的结果

文本到视频检索在MSR-VTT数据集上的结果。

“TrainD”列显示了用于预训练和训练的数据集,其中 M、H、W、C、G 分别代表 MSR-VTT、HowTo100M、WIT、COCO Captions 和 Visual Genome Captions。
此外,MDMMT 中使用的 MD 表示包括 MSR-VTT、LSMDC、HowTo100M 等的联合多域数据集,而 CW 表示 CC3M 加上 WebVid-2M。

文本到视频检索在MSVD数据集上的结果

文本到视频检索在MSVD数据集上的结果。

文本到视频检索在LSMDC数据集上的结果

文本到视频检索在LSMDC数据集上的结果。

文本到视频检索在DiDeMo数据集上的结果

文本到视频检索在DiDeMo数据集上的结果。

视频描述

视频描述在MSR-VTT和MSVD数据集上的结果

视频描述在MSR-VTT和MSVD数据集上的结果。

消融实验

不同超参数的检索结果

不同超参数的检索结果。

在(Ours)-meanP模型上使用HowTo100M-380k数据集进行的后预训练(P-PT)测试

在(Ours)-meanP模型上使用HowTo100M-380k数据集进行的后预训练(P-PT)测试。

关于采样策略的研究

关于采样策略的研究。“Head”、“Tail”和“Uniform”是三种从视频中选取帧的采样策略。

不同视角下的Video Encoder中Flattened Patches的Linear Projection

不同视角下的Video Encoder中Flattened Patches的Linear Projection。

测试( ours)-meanP上的2D and 3D patch linear

测试( ours)-meanP上的2D and 3D patch linear。

消融视频描述结果

视频描述任务对Retrieval Loss的消融实验。

总结

在这篇论文中,作者以预训练的CLIP作为主干网络,从帧级输入解决视频片段检索和视频描述任务。采用无参数类型、顺序类型和紧密类型相似度计算模块来获得最终结果。实验结果表明了模型的有效性,并在MSR-VTT等数据集上实现了SOTA结果。

此外,作者还从实证研究中得出以下见解:

  1. 图像特征也可以促进视频特征;
  2. 在CLIP初始化的CLIP4Clip模型上进行后预训练可以进一步提高视频文本检索和视频描述任务的表现;
  3. 在视频文本任务中使用的CLIP对学习率敏感。