【论文笔记】MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding

小嗷犬2024-10-172025-08-13

基本信息

标题: MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding
作者: Yue Cao, Yangzhou Liu, Zhe Chen, Guangchen Shi, Wenhai Wang, Danhuai Zhao, Tong Lu
arXiv: https://arxiv.org/abs/2410.11829

摘要

尽管在通过跨模态交互理解复杂人类意图的多模态大型语言模型（MLLMs）方面取得了显著进展，但捕捉复杂的图像细节仍然具有挑战性。

先前的方法通过集成多个视觉编码器来增强视觉细节，引入了冗余和计算开销。我们观察到，大多数MLLMs仅利用视觉编码器的最后一层特征图进行视觉表示，忽略了浅层特征图中丰富的细粒度信息。

为了解决这个问题，我们提出了MMFuser，这是一种简单而有效的多层特征融合器，能够高效地整合来自视觉Transformer（ViTs）的深层和浅层特征。

具体来说，它利用语义对齐的深层特征作为Query，动态地从浅层特征中提取缺失的细节，从而在保持语义对齐的同时，丰富表示的细粒度信息。

应用于LLaVA-1.5模型，MMFuser在视觉表示和基准性能方面取得了显著提升，与多编码器集成方法相比，提供了一种更灵活、更轻量级的解决方案。代码和模型已发布在https://github.com/yuecao0119/MMFuser。

主要贡献

我们发现，在多模态语言模型（MLLMs）中，单视觉编码器的表达潜力尚未得到充分利用。浅层特征虽然细节丰富，但与文本特征的语义对齐较差，这表明简单的融合方法是不够的，需要更高级的设计。
我们引入了MMFuser，它通过动态整合浅层特征的细粒度细节来增强单视觉编码器的视觉表示，同时保持深层特征的语义一致性。
将MMFuser应用于LLaVA-1.5模型，我们实现了显著的性能提升。我们的13B模型在VizWiz、MME和MMBench-EN上分别比LLaVA-1.5高出3.8、53.9和2.2分，证明了我们方法的有效性。

其他

(a) 计算了来自不同视觉编码器（包括CLIP-ViT-L、ConvNeXtXXL、DINOv2-L、EVA02-L和SigLIP-L）的特征图与CLIP-ViT-L的最后一层特征图之间的余弦相似度。
(b) 不同特征图的可视化。

这些结果表明，不仅在不同的视觉编码器之间存在显著的特征差异，而且在同一视觉编码器的不同层之间也存在。这一观察促使我们充分探索单个视觉编码器在开发多语言模型（MLLMs）中的潜力。

(a) 之前的方法通常利用视觉编码器最后一层或倒数第二层的视觉特征。例如，LLaVA系列采用了这种方法。
(b) 一些模型整合了多个视觉编码器的视觉特征，如MouSi、DeepSeek-VL和LLaVA-HR。
© 我们的MMFuser融合了单个视觉编码器不同层的视觉特征，提供了更丰富的细节和与文本更好的语义对齐。

方法

MMFuser

F_{\mathrm{ca}}=\operatorname{Attention}\left(\operatorname{norm}\left(F_{\mathrm{L}}\right), \operatorname{norm}(X)\right)

\begin{array}{c} F_{\mathrm{sa}}^{\prime}=\operatorname{Attention}\left(\operatorname{norm}\left(F_{\mathrm{ca}}\right), \operatorname{norm}\left(F_{\mathrm{ca}}\right)\right) \\ F_{\mathrm{sa}}=F_{\mathrm{ca}}+\gamma_{2} F_{\mathrm{sa}}^{\prime} \end{array}

F_{\text{visual}} = F_{L} + \gamma_{1} F_{\mathrm{sa}}

训练

预训练

数据集: LLaVA-LCS-558K
模型:
- 🔥 Projector、MMFuser
- ❄️ Visual Encoder、LLM

微调

数据集: LLaVA-Instruct-665K (包含来自GQA、TextCaps、ShareGPT和其他来源的665K指令遵循数据)
模型:
- 🔥 Projector、MMFuser、LLM
- ❄️ Visual Encoder

实验

简单特征融合方法与MMFuser

Concatenation: 沿通道维度连接特征图以创建融合特征图。
Average: 计算所有特征图的逐元素平均值以获得融合特征图。
Weighted Average: 为每个特征图分配可学习的权重，然后计算加权平均值以获得融合特征图。
Feature Pyramid Network (FPN): 将所有特征图输入到FPN进行多尺度特征学习，然后计算FPN输出的加权平均以获得融合特征图。

四种融合方法中没有任何一种能持续提高模型性能。我们将此归因于深层和浅层特征之间的语义错位。

尽管浅层特征捕捉到更多细粒度细节，但它们与文本的对齐程度远弱于深层特征。

在更深层次中，与文本对应的特征被突出显示，而浅层特征则缺乏这种明确的对应关系。

通过简单融合这两种图像特征，模型难以有效利用每种特征的互补优势。