【论文笔记】Dense Connector for MLLMs

小嗷犬2024-11-032025-08-13

基本信息

标题: Dense Connector for MLLMs
作者: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
发表: NeurIPS 2024
arXiv: https://arxiv.org/abs/2405.13800

摘要

我们是否充分利用了多模态大型语言模型（MLLMs）中视觉编码器的潜力？近期MLLMs在多模态理解方面的卓越表现引起了学术界和工业界的广泛关注。

在当前的MLLM竞赛中，焦点似乎主要集中在语言方面。

我们见证了更大规模、更高质量的指令数据集的出现，以及更大规模LLMs的参与。

然而，对MLLMs使用的视觉信号的关注却寥寥无几，这些信号通常被认为是冻结的视觉编码器提取的最终高级特征。

在本文中，我们介绍了Dense Connector——一个简单、有效且即插即用的视觉-语言连接器，通过利用多层视觉特征，以最小的额外计算开销显著提升了现有的MLLMs。

此外，我们的模型仅通过图像训练，在视频理解方面也展示了显著的零样本能力。

在跨各种视觉编码器、图像分辨率、训练数据集规模、LLMs大小（2.7B→70B）以及MLLMs的多样化架构（例如LLaVA和Mini-Gemini）的实验结果中，验证了我们的方法的灵活性和可扩展性，在19个图像和视频基准测试中实现了最先进的性能。

我们希望这项工作将为未来的MLLM开发提供宝贵的经验，并作为基本模块。

代码开源在：https://github.com/HJYao00/DenseConnector

主要贡献

我们提出了一种简单、有效且即插即用的Dense Connector，它以最小的额外计算开销增强了现有多语言语言模型（MLLM）的视觉表示。我们希望它能作为基本模块，持续为未来的MLLM带来益处。
我们展示了我们的方法在各种视觉编码器、图像分辨率（336px→768px）、训练数据集规模、不同大小的LLMs（2B→70B）以及多样化的MLLMs架构（例如，LLaVA，Mini-Gemini）上的灵活性和可扩展性。
我们的方法在11个图像基准测试中表现出色，并在8个视频基准测试中实现了最先进的结果，无需进行特定的视频调整。

方法

模型架构

基于LLaVA架构，将Projector替换为了Dense Connector模块。

Sparse Token Integration (STI)

$e_v = \operatorname{MLP}\left(\operatorname{Concatenate}\left([\operatorname{avg}(V_{l_1}), \ldots, \operatorname{avg}(V_{l_K}), V_L], \text{dim} = \text{token}\right)\right)$