【论文笔记】LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

小嗷犬2024-11-172025-08-13

基本信息

标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models
作者: Yanwei Li, Chengyao Wang, Jiaya Jia
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2311.17043

摘要

在这项工作中，我们提出了一种新颖的方法来解决视觉语言模型（VLMs）在视频和图像理解中的token生成挑战，称为LLaMA-VID。

当前的VLMs虽然在图像描述和视觉问答等任务上表现出色，但在处理长视频时由于视觉token过多而面临计算负担。

LLaMA-VID通过用两个不同的token来表示每一帧，即上下文token和内容token，来解决这个问题。

上下文token根据用户输入编码整体图像上下文，而内容token封装了每一帧中的视觉线索。

这种双token策略显著减少了长视频的负载，同时保留了关键信息。

通常，LLaMA-VID使现有框架能够支持长达一小时的视频，并通过额外的上下文token提高了其上限。

它已被证明在大多数基于视频或图像的基准测试中优于先前的方法。

代码可在https://github.com/dvlab-research/LLaMA-VID上找到。

LLaMA-VID

在用户指令下，LLaMA-VID通过接收单张图像或视频帧作为输入，并从语言模型（LLM）生成响应。

该过程从视觉编码器开始，将输入帧转换为视觉嵌入。

然后，文本解码器根据用户输入生成文本查询。在上下文注意力中，文本查询从视觉嵌入中聚合与文本相关的视觉线索。

为了提高效率，提供了将视觉嵌入下采样到各种token大小或单个token的选项。

接着，使用线性投影仪将文本引导的上下文token和视觉丰富的内容token构建出来，以表示时间 $t$ 的每一帧。

最后，LLM 接收用户指令和所有视觉token作为输入，并给出响应。

Encoder and Decoder

提出的LLaMA-VID可以用于与单张图片或长视频进行交互。

为了清晰起见，我们假设输入图像是从视频序列中捕获的，如在时间 $t$ ，首先使用基于Transformer的视觉编码器来生成视觉嵌入 $X_t \in \mathbb{R}^{N \times C}$ 。

这里， $N = H/p \times W/p$ ， $C$ 分别表示图像块的数量和嵌入通道。

对于基于ViT的骨干网络，图像块大小 $p$ 通常设置为14。

同时，我们以用户指令为输入，并生成文本引导的查询 $Q_t \in \mathbb{R}^{M \times C}$ ，其中 $M$ 表示查询的数量。

如图2所示，这种跨模态交互主要发生在文本解码器中，可以轻松地使用BERT或QFormer实例化。

通过这种方式，文本查询 $Q_t$ 包含与用户指令最相关的突出视觉线索。

Token Generation

通过文本查询 $Q_{t}$ 和视觉嵌入 $X_{t}$ ，我们可以轻松地为大型语言模型（LLMs）生成代表性token。

具体来说，上下文注意力被设计为聚合与文本相关的视觉特征，并将它们压缩成一个单一的上下文token。

如图2所示，它以 $Q_{t}$ 和 $X_{t}$ 作为输入，并制定上下文相关的嵌入 $E_{t} \in \mathbb{R}^{1 \times C}$ 为：

E_{t} = \text{Mean}\left(\text{Softmax}\left(Q_{t} \times X_{t}^{T}\right) \times X_{t}\right)

其中，Softmax 函数和 Mean 操作分别沿着 $N$ 和 $M$ 维度进行。

与采用32个视觉查询作为 LLMs token的 QFormer 不同，我们仅使用文本查询 $Q_{t}$ 来聚合具有高响应分数的视觉特征以输入指令。因此，与用户相关的最关键视觉线索被有效地保留在压缩嵌入中。

随后，使用线性投影器将嵌入 $E_{t}$ 转换为上下文token $E_{t}^{T} \in \mathbb{R}^{1 \times C}$ ，这与 LLMs 的语言空间对齐。

同时，我们根据计算限制采用自适应池化策略对视觉嵌入进行处理，以产生内容token $E_{t}^{V} \in \mathbb{R}^{n \times C}$ ，其中 $n \in [1, N]$ 。

例如，当输入单张图像时，我们保持视觉嵌入 $X_{t}$ 的原始分辨率，而对长视频进行下采样，将 $X_{t}$ 下采样为1个token。这种方法显著减少了每帧 LLMs 的开销，从而有效支持长达数小时的视频。

最后，生成的上下文token $E_{t}^{T}$ 和内容token $E_{t}^{V}$ 被连接起来表示时间 $t$ 的帧。连同其他时间戳的帧，整个视频序列被转换为token格式的语言空间，然后用于生成来自大型语言模型（LLMs）的响应。

Training Strategy

三阶段训练：

Modality Alignment: 🔥 Context Attention、Projector ❄️ Visual Encoder、Text Decoder、LLM
Instruction Tuning: 🔥 Other ❄️ Visual Encoder
Long Video Tuning: 🔥 Other ❄️ Visual Encoder