【论文笔记】Wings: Learning Multimodal LLMs without Text-only Forgetting

小嗷犬2024-11-092025-01-05

基本信息

标题: Wings: Learning Multimodal LLMs without Text-only Forgetting
作者: Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
arXiv: https://arxiv.org/abs/2406.03496

摘要

多模态大型语言模型（MLLMs）以训练好的LLM为基础，首先将图像与文本对齐，然后对多模态混合输入进行微调。

然而，MLLM在灾难性地忘记了仅包含文本的指令，这些指令不包括图像，可以在初始LLM中解决。

在本文中，我们提出了WINGS，这是一种新型的MLLM，在纯文本对话和多模态理解方面都表现出色。

分析MLLM在多模态指令中的注意力发现，纯文本遗忘与从预图像文本到后图像文本的注意力转移有关。

据此，我们构建了额外的模块，作为增强学习器来补偿注意力转移。

互补的Visual Learner和Textual Learner，如两侧的“翅膀”，在每个层的注意力块中并行连接。

最初，图像和文本输入与Visual Learner一起操作，与主要注意力平衡，关注视觉元素。

Textual Learner随后与基于注意力的路由协作集成，以融合Visual Learner和Textual Learner的输出。

我们设计了Low-Rank Residual Attention（LoRRA）以保证学习器的高效率。

我们的实验结果表明，WINGS在纯文本和视觉问答任务中均优于同等规模的MLLMs。

在一个新构建的交错图像-文本（IIT）基准上，WINGS在从纯文本丰富的到多模态丰富的问答任务中表现出优异的性能。

主要贡献

我们提出并验证了MLLM的纯文本遗忘现象与图像前后跨层MLLM-LAWS的注意力转移相关。
WINGS构建了Visual Learner和Textual Learner，并引入了一种基于注意力权重转移的Router，以补偿注意力转移，实现协作学习。
纯文本、视觉问答和新建的交错图像-文本（IIT）基准上的实验表明，WINGS具有全面和灵活的性能。

工作

Capturing the Attention Shift with MLLM-LAWS

对于具有 $L$ 层的MLLM，我们定义Layer-level Attention Weights（MLLM-LAWS）为：

$\text{LAWS}_{\mathcal{V}_{*}} = \left[ a_{\mathcal{V}_{*}}^{1}, a_{\mathcal{V}_{*}}^{2}, \cdots, a_{\mathcal{V}_{*}}^{L} \right], \quad a_{\mathcal{V}_{*}}^{l} = \sum_{i=0}^{s} \sum_{j \in \mathcal{V}_{*}} a_{ij}^{l} \left( h^{l-1} \right)$

$a_{ij}^{l}$ 表示MLLM的第 $l$ 层中第 $i$ 个token对第 $j$ 个token的注意力权重， $h^{l}$ 表示第 $l$ 层的隐藏状态， $\forall i, \sum_{j=0}^{s} a_{ij}^{l} \left( \mathbf{h}^{l-1} \right) = 1$ ， $\mathcal{V}_{*}$ 表示一个token序列，可以是 $\mathcal{V}_\text{itself}$ 、 $\mathcal{V}_\text{before}$ 或 $\mathcal{V}_\text{after}$ ，分别表示视觉序列、视觉序列前的文本序列和视觉序列后的文本序列。

$\text{LAWS}_{\mathcal{V}_{*}}$ 可以表示MLLM对当前序列 $\mathcal{V}_{*}$ 在所有MLLM层上的注意力动态曲线。

(a): 视觉编码器和投影器的视觉特征token被插入到文本特征序列中。
(b): 文本层中在文本token的前图像、图像本身和后图像上的注意力权重比例。红色曲线来自在纯文本任务表现更好的MLLM，而蓝色曲线来自在纯文本任务表现更差的MLLM。
©: 实验表明，在100多个MLLM中，视觉token前后的皮尔逊相关系数与MLLM在纯文本上的表现存在正相关关系。

因此，注意力转移可通过视觉序列前后 $\text{LAWS}$ 之间的皮尔逊相关系数量化为：

$\text{Attention Shift} = \mathbb{E}_{\mathbf{x}} \left[ -\rho \left( \text{LAWS}_{\mathcal{V}_{\text{before}}}, \, \text{LAWS}_{\mathcal{V}_{\text{after}}} \right) \right] + 1$

WINGS

我们引入了与主要注意力平行的额外模块，作为增强Learner来补偿注意力转移。我们在一侧训练Visual Learner，减轻一些转移的注意力。然后，我们基于路由转移的注意力权重协同训练Visual Learner和Textual Learner。

WINGS由Low-Rank Residual Attention（LoRRA）模块构建，其中前一个隐藏状态作为Query，而视觉/文本特征作为Key和Value。训练从Visual Learner和Projector开始，接着是动态注意力Router。

Learner:

$\text{Learner}^* \left( \rm{Q} = \mathbf{h}^l, \rm{K}, \rm{V} = \mathbf{x}_* \right)_{* \in \{\mathbf{V}, \mathbf{T}\}} = \text{Softmax} \left( \frac{\mathbf{h}^l (1 + \mathbf{W}^{\rm{Q}}) \cdot (\mathbf{x}_* (1 + \mathbf{W}^{\rm{K}}))^\top}{\sqrt{d_{\text{head}}}} \right) \mathbf{x}_* (1 + \mathbf{W}^{\rm{V}}) \mathbf{W}^{\rm{O}}$

Router接受一个注意力权重作为输入，通过单层MLP和Softmax处理，然后将Learner的输出叠加到主注意力上。

$\text{Att}^{\text{WINGS}} = \text{Att}^{\text{main}} + \sum_{* \in \{V, T\}} \text{Router}(\mathbf{a}) \cdot \text{Learner}^* \left( \mathbf{h}^l, \mathbf{x}_* \right)$

训练

WINGS的架构包含四个元素：Vision Encoder、Projector、LLM以及带有Router的Learner。

Stage 1
- ❄️ Vision Encoder、LLM
- 🔥 Projector、Visual Learner
- Visual Learner的输出直接加到主分支上
Stage 2
- ❄️ Vision Encoder
- 🔥 LLM、Projector、Router、Visual Learner、Textual Learner