【论文笔记】CLIP4Clip An empirical study of CLIP for end to end video clip retrieval and captioning

小嗷犬2024-10-102025-06-01

基本信息

标题: CLIP4Clip An empirical study of CLIP for end to end video clip retrieval and captioning
作者: Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li
arXiv: https://arxiv.org/abs/2104.08860

摘要

视频片段检索和视频描述任务在多模态研究中扮演着至关重要的角色，是多模态理解和生成的基础研究问题。

CLIP（对比语言-图像预训练）模型展示了从网络收集的图像-文本数据集中学习视觉概念的力量。

在本文中，我们提出了一种CLIP4Clip模型，以端到端的方式将图像-文本预训练的CLIP模型的知识迁移到视频-文本任务。

此外，我们进行了多项实证研究，包括：

图像特征是否足以用于视频-文本检索和视频描述？
基于CLIP在大型视频-文本数据集上的后预训练如何影响性能？
建模视频帧之间时间依赖关系的实际机制是什么？
模型的超参数敏感性。

大量的实验结果表明，从CLIP迁移过来的CLIP4Clip模型在包括MSR-VTT、MSVD、LSMDC和DiDeMo在内的多种视频-文本数据集上，在多模态理解和生成任务上可以达到最先进的结果。

模型

CLIP4Clip的框架包括三个部分，包括Text Encoder(Transformer)、Video Encoder(ViT)和Similarity Calculator。

Text Encoder和Video Encoder的模型参数都使用CLIP(ViT-B/32)初始化。

在本工作中，作者研究了三种类型的相似度计算机制，包括Parameter-free Type、Sequential Type和Tight Type。

训练

Pre-training

从Howto100M数据集中选取了“食品与娱乐”类别的约38万个视频，在本文中称为Howto100M-380k。

类似CLIP的训练方式。

Captioning Training

在Video Encoder后接了一个Decoder，对比学习损失与生成损失一起训练。

实验

视频检索

文本到视频检索在MSR-VTT数据集上的结果。

“TrainD”列显示了用于预训练和训练的数据集，其中 M、H、W、C、G 分别代表 MSR-VTT、HowTo100M、WIT、COCO Captions 和 Visual Genome Captions。
此外，MDMMT 中使用的 MD 表示包括 MSR-VTT、LSMDC、HowTo100M 等的联合多域数据集，而 CW 表示 CC3M 加上 WebVid-2M。

文本到视频检索在MSVD数据集上的结果。

文本到视频检索在LSMDC数据集上的结果。

文本到视频检索在DiDeMo数据集上的结果。