【论文笔记】MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding

基本信息

标题: MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding
作者: Yue Cao, Yangzhou Liu, Zhe Chen, Guangchen Shi, Wenhai Wang, Danhuai Zhao, Tong Lu
arxiv: https://arxiv.org/abs/2410.11829

基本信息

摘要

尽管在通过跨模态交互理解复杂人类意图的多模态大型语言模型(MLLMs)方面取得了显著进展,但捕捉复杂的图像细节仍然具有挑战性。

先前的方法通过集成多个视觉编码器来增强视觉细节,引入了冗余和计算开销。我们观察到,大多数MLLMs仅利用视觉编码器的最后一层特征图进行视觉表示,忽略了浅层特征图中丰富的细粒度信息。

为了解决这个问题,我们提出了MMFuser,这是一种简单而有效的多层特征融合器,能够高效地整合来自视觉Transformer(ViTs)的深层和浅层特征

具体来说,它利用语义对齐的深层特征作为Query,动态地从浅层特征中提取缺失的细节,从而在保持语义对齐的同时,丰富表示的细粒度信息。

应用于LLaVA-1.5模型,MMFuser在视觉表示和基准性能方面取得了显著提升,与多编码器集成方法相比,提供了一种更灵活、更轻量级的解决方案。代码和模型已发布在https://github.com/yuecao0119/MMFuser

主要贡献

  • 我们发现,在多模态语言模型(MLLMs)中,单视觉编码器的表达潜力尚未得到充分利用。浅层特征虽然细节丰富,但与文本特征的语义对齐较差,这表明简单的融合方法是不够的,需要更高级的设计。
  • 我们引入了MMFuser,它通过动态整合浅层特征的细粒度细节来增强单视觉编码器的视觉表示,同时保持深层特征的语义一致性。
  • 将MMFuser应用于LLaVA-1.5模型,我们实现了显著的性能提升。我们的13B模型在VizWiz、MME和MMBench-EN上分别比LLaVA-1.5高出3.8、53.9和2.2分,证明了我们方法的有效性。

不同模型规模下的性能比较

其他

比较不同视觉编码器和CLIP-ViT各层的特征图

  • (a) 计算了来自不同视觉编码器(包括CLIP-ViT-L、ConvNeXtXXL、DINOv2-L、EVA02-L和SigLIP-L)的特征图与CLIP-ViT-L的最后一层特征图之间的余弦相似度。
  • (b) 不同特征图的可视化。

这些结果表明,不仅在不同的视觉编码器之间存在显著的特征差异,而且在同一视觉编码器的不同层之间也存在。这一观察促使我们充分探索单个视觉编码器在开发多语言模型(MLLMs)中的潜力。

先前方法 VS 本文提出的MMFuser

  • (a) 之前的方法通常利用视觉编码器最后一层或倒数第二层的视觉特征。例如,LLaVA系列采用了这种方法。
  • (b) 一些模型整合了多个视觉编码器的视觉特征,如MouSi、DeepSeek-VL和LLaVA-HR。
  • © 我们的MMFuser融合了单个视觉编码器不同层的视觉特征,提供了更丰富的细节和与文本更好的语义对齐。

方法

MMFuser

MMFuser

Fca=Attention(norm(FL),norm(X))F_{\mathrm{ca}}=\operatorname{Attention}\left(\operatorname{norm}\left(F_{\mathrm{L}}\right), \operatorname{norm}(X)\right)

Fsa=Attention(norm(Fca),norm(Fca))Fsa=Fca+γ2Fsa\begin{array}{c} F_{\mathrm{sa}}^{\prime}=\operatorname{Attention}\left(\operatorname{norm}\left(F_{\mathrm{ca}}\right), \operatorname{norm}\left(F_{\mathrm{ca}}\right)\right) \\ F_{\mathrm{sa}}=F_{\mathrm{ca}}+\gamma_{2} F_{\mathrm{sa}}^{\prime} \end{array}

Fvisual=FL+γ1FsaF_{\text{visual}} = F_{L} + \gamma_{1} F_{\mathrm{sa}}

训练

预训练

  • 数据集: LLaVA-LCS-558K
  • 模型:
    • 🔥 Projector、MMFuser
    • ❄️ Visual Encoder、LLM

微调

  • 数据集: LLaVA-Instruct-665K (包含来自GQA、TextCaps、ShareGPT和其他来源的665K指令遵循数据)
  • 模型:
    • 🔥 Projector、MMFuser、LLM
    • ❄️ Visual Encoder

实验

简单特征融合方法与MMFuser

LLAVA-1.5基线、四种简单特征融合方法与我们的MMFuser比较

  • Concatenation: 沿通道维度连接特征图以创建融合特征图。
  • Average: 计算所有特征图的逐元素平均值以获得融合特征图。
  • Weighted Average: 为每个特征图分配可学习的权重,然后计算加权平均值以获得融合特征图。
  • Feature Pyramid Network (FPN): 将所有特征图输入到FPN进行多尺度特征学习,然后计算FPN输出的加权平均以获得融合特征图。

四种融合方法中没有任何一种能持续提高模型性能。我们将此归因于深层和浅层特征之间的语义错位。

尽管浅层特征捕捉到更多细粒度细节,但它们与文本的对齐程度远弱于深层特征。

在更深层次中,与文本对应的特征被突出显示,而浅层特征则缺乏这种明确的对应关系。

通过简单融合这两种图像特征,模型难以有效利用每种特征的互补优势。

主实验

在12个通用多模态Benchmark与SOTA的MLLMs比较

在12个通用多模态Benchmark与SOTA的MLLMs比较。

OCRBench结果

OCRBench结果。

区域描述结果

区域描述结果。

目标指代理解结果

目标指代理解结果。

消融实验

层组合消融

层组合消融。

注意机制消融

注意机制消融。

无论使用何种注意力机制,MMFuser始终增强了多语言语言模型(MLLM)的视觉表示能力。这证实了MMFuser的有效性和适应性。

内部模块设计消融

内部模块设计消融。

其他

视觉表示可视化

为了直观验证MMFuser对视觉特征的影响,我们在图5中展示了四个示例图像的输入和输出特征图可视化。

对于输入图像,浅层特征图传达了更丰富的细粒度信息,但这些信息杂乱无章,语义信息难以区分。

例如,左下角的图像包含复杂信息,使得从浅层特征中直观地辨别语义内容变得具有挑战性。

但经过MMFuser的注意力机制处理后,图像中的前景字符得到了很好的突出显示,语义信息与ViT的最后一层特征图对齐。

对齐的详细特征可以有效地增强MLLMs的细粒度感知能力。

总结

在这篇论文中,我们介绍了MMFuser,这是一种新型的多模态多层特征融合器,旨在提升多模态大型语言模型(MLLMs)中的视觉表示。

通过整合视觉编码器中的浅层和深层特征,MMFuser解决了仅依赖单个视觉编码器的深层特征所带来的局限性,这通常会导致细粒度细节的丢失。

我们的实验表明,MMFuser在各个基准测试中提升了LLaVA-1.5模型的表现,丰富了视觉表示,避免了集成模型中的冗余和计算开销。

这种方法最大化了单个ViT编码器的潜力,为MLLMs提供了一种高效灵活的解决方案。

总的来说,MMFuser提升了MLLMs中的细粒度细节捕捉和语义理解,我们希望它能为社区在开发更稳健和高效的跨模态模型方面做出贡献。