Router接受一个注意力权重作为输入,通过单层MLP和Softmax处理,然后将Learner的输出叠加到主注意力上。
WINGS的架构包含四个元素:Vision Encoder、Projector、LLM以及带有Router的Learner。
WINGS与基线MLLMs在相同训练数据下的性能比较。
同等规模的多模态大模型和高效多模态大模型在纯文本和多模态数据集上的性能比较。
为了精细评估MLLMs,我们构建了一系列纯文本和多模态混合多轮对话。
我们通过chroma从MMLU、CMMLU、OpenbookQA、HellaSwag、MMMU、MMBench、SEED-Bench和AI2D数据集中提取具有相似语义的指令。
然后,我们使用GPT-3.5 Turbo润色一些指令,使它们更接近现实世界的对话。
我们设置了6种视觉内容配置,按多轮内容分类为:(T)、(T, T)、(T, T, T)、(T, T, V)、(T, V)和(V)。
例如,(T, T, V)表示两个连续的纯文本查询后跟一个需要回答的视觉问题。
在Interleaved Image and Text (IIT) Benchmark上与LLaVA系列模型、不同学习率、不同微调部分的性能比较。
我们提出了WINGS,它包括Visual Learner和Textual Learner,以减轻纯文本的遗忘。Learner由高效的Low-Rank Residual Attention(LoRRA)构成。
我们首先考虑MLLM中的转移注意力权重,并在第一阶段专注于学习Visual Learner。然后,我们基于转移注意力权重进行联合训练Visual Learner和Textual Learner。
WINGS在纯文本、视觉问答和新建的Interleaved Image and Text (IIT) Benchmark测试中表现出显著性能。
WINGS允许在资源有限的情况下保持纯文本的性能,并在资源丰富的环境中进一步提升性能。