【论文笔记】How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

基本信息

标题: How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
作者: Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Botian Shi, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
arXiv: https://arxiv.org/abs/2404.16821

基本信息

摘要

本文介绍了InternVL 1.5,这是一个开源的多模态大型语言模型(MLLM),旨在弥合开源和专有商业模型在多模态理解能力之间的差距。

我们提出了三项简单改进:

  1. 强大的视觉编码器:我们探索了一种连续学习策略,用于大规模视觉基础模型InternViT-6B,提升了其视觉理解能力,使其能够在不同的LLM中进行迁移和复用。
  2. 动态高分辨率:根据输入图像的宽高比和分辨率,我们将图像划分为1到40块,每块448×448像素,支持高达4K分辨率的输入。
  3. 高质量双语数据集:我们精心收集了一个高质量的双语数据集,涵盖了常见场景、文档图像,并用英语和中文问答对进行标注,显著提升了OCR和中文相关任务的表现。

我们通过一系列基准测试和比较研究评估了InternVL 1.5。与开源和专有模型相比,InternVL 1.5表现出竞争力,在18个基准测试中的8个中达到了最先进的结果。

InternVL 1.5 versus proprietary commercial models

Characteristics of InternVL 1.5

InternVL 1.5

Overall Architecture

Overall Architecture

如图3所示,InternVL 1.5采用了一种类似于广泛使用的开源MLLMs的架构,具体来说是“ViT-MLP-LLM”配置。

我们对该架构的实现集成了预训练的InternViT-6B和预训练的InternLM2-20B,使用随机初始化的MLP投影器。

在训练过程中,我们实施了一种动态分辨率策略,根据输入图像的宽高比和分辨率,将图像划分为1到12种尺寸大小的448×448像素的tiles。

在测试过程中,这可以通过零样本扩展到40 tiles(即4K分辨率)。

为了提高高分辨率的可扩展性,我们简单地采用像素洗牌操作将视觉token的数量减少到原始数量的四分之一。

因此,在我们的模型中,一个448×448像素的图像由256个视觉token表示。

Strong Vision Encoder

在现有的MLLMs中,最常用的视觉基础模型通常是对比预训练的ViT。

然而,这些ViTs通常在从互联网上爬取的固定低分辨率(例如,224×224)的图像-文本对上进行训练,因此在处理高分辨率图像或来自互联网以外的来源(如文档图像)时,其性能会下降。

InternViT-6B-448px-V1.2

为了解决这个问题,InternVL 1.2更新涉及对InternViT-6B模型的持续预训练。

首先,我们发现倒数第四层的特征在多模态任务中表现最好,因此我们直接丢弃了最后三层的权重,将InternViT-6B从48层减少到45层。

然后,我们将InternViT-6B的分辨率从224增加到448,并将其与Nous-Hermes-2-Yi-34B集成。

为了使模型具备高分辨率处理和OCR能力,视觉编码器和MLP都被激活用于训练,利用图像描述和OCR特化数据集的混合数据集。

从这个过程中新得出的InternViT权重以InternViT-6B-448px-V1.2的形式发布。

InternViT-6B-448px-V1.5

InternVL 1.5的开发继续了InternViT-6B-448px-V1.2的强大基础预训练。

在这次更新中,训练图像的分辨率从固定的448×448扩展到动态的448×448,其中基本tiles大小为448×448,tiles数量从1到12不等。

此外,我们增强了预训练数据集的规模、质量和多样性,从而增强了我们1.5版本模型的强大鲁棒性、OCR能力和高分辨率处理能力。

值得注意的是,尽管InternVL 1.5中的LLM从Nous-Hermes-2-Yi-34B变为了InternLM2-20B,InternViT仍然与新的LLM保持了出色的兼容性和可移植性。

这表明,在MLLMs预训练阶段,InternViT-6B学习到的视觉特征具有广泛的应用性,不严格绑定于特定的LLM。

Dynamic High-Resolution

受UReader的启发,我们采用了一种动态高分辨率训练方法,该方法能够有效适应输入图像的多种分辨率和宽高比。

这种方法利用了将图像分割成图块的可塑性,增强了模型处理详细视觉信息的能力,同时适应了不同的图像分辨率。

它主要包括以下步骤:

Dynamic Aspect Ratio Matching

如图4所示,为了在处理过程中保持自然的宽高比,我们从预定义的宽高比集合中动态匹配最优宽高比。

Illustration of dynamic high resolution

由于计算资源有限,我们在训练过程中允许最多12个tiles。

因此,这个集合包括由1到12个tiles形成的35种可能的宽高比组合,例如{1:1, 1:2, 2:1, 3:1, …, 2:6}。

在匹配过程中,对于每个输入图像,我们计算其宽高比,并通过测量绝对差异将其与35个预定义的宽高比进行比较。

如果多个预定义的宽高比匹配(例如,1:1和2:2),我们优先选择不超过输入图像面积两倍的那个,从而防止低分辨率图像的过度放大。

Image Division & Thumbnail

一旦确定了合适的宽高比,图像将被调整到相应的分辨率。例如,一个800×1300的图像将被调整为896×1344。

调整后的图像随后被分割成448×448像素的tiles。除了tiles外,我们还包括整个图像的缩略图,以捕捉全局上下文。

这个缩略图被缩小到448×448,帮助模型理解整体场景。

因此,在训练过程中,视觉token的数量范围从256到3,328。

在测试过程中,tiles的数量可以增加到最多40个,从而产生10,496个视觉token。

High-Quality Bilingual Dataset

Pre-training Dataset

Datasets used in the pre-training stage

Fine-tuning Dataset

Datasets used in the fine-tuning stage

Data Translation Pipeline

Explanation of our data translation pipeline

实验

Comparison with SoTA models on 16 multimodal benchmarks

Comparison with SoTA models on ConvBench and MMT-Bench

Comparison of InternVL 1.5 performance across different image resolutions

Examples for General QA

Examples for OCR-related QA

总结

这项工作介绍了InternVL 1.5,这是一个开源的多模态大型语言模型(MLLM),旨在缩小开源模型和专有商业模型在多模态理解性能上的差距。

通过整合强大的视觉编码器、具备持续学习能力,采用动态高分辨率策略,以及利用高质量的双语数据集,InternVL 1.5在各种多模态基准测试中展现了稳健的性能。

我们的评估表明,该模型在领先专有模型中取得了具有竞争力的性能,尤其是在OCR相关任务中表现出色,并在中文相关场景理解方面取得了显著进步。

虽然InternVL 1.5为开源多模态理解做出了贡献,但该领域仍在不断发展,前方还有许多挑战。

我们渴望进一步提升InternVL的能力,并邀请全球研究社区的协作,希望共同丰富和扩大开源模型的影响力。