【论文笔记】xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

小嗷犬2024-10-272025-06-01

基本信息

标题: xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
作者: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
arXiv: https://arxiv.org/abs/2408.08872
项目主页: https://www.salesforceairesearch.com/opensource/xGen-MM/index.html

摘要

本报告介绍了xGen-MM（也称为BLIP-3），这是一个用于开发大型多模态模型（LMMs）的框架。

该框架包括精心挑选的数据集、训练方案、模型架构以及一系列LMMs。

xGen-MM，即xGen-MultiModal，扩展了Salesforce xGen在基础AI模型上的计划。

我们的模型在各种任务中进行了严格的评估，包括单图和多图基准测试。

我们的预训练基础模型展现出强大的上下文学习能力，而指令微调模型在类似规模的开放源代码LMMs中表现出竞争力。

此外，我们引入了一个使用DPO进行安全微调的模型，旨在减轻如幻觉等有害行为并提高安全性。

我们将我们的模型、精心挑选的大规模数据集以及微调代码库开源，以促进LMM研究的进一步发展。

模型架构

LLM: Phi-3-mini
Token Sampler: Perceiver Resampler
Vision Transformer: SigLIP ViT

训练

Pre-training

Interleaved Dataset Mixture
- MINT-1T
- OBELICS
Caption Dataset Mixture
- BLIP3-KALE
- BLIP3-OCR-200M
- BLIP3-GROUNDING-50M
- Other Public Datasets Mixture
  - Datacomp-1B image-text pairs
  - CC12M
  - CC3M
  - VG
  - SBU