[h∑HAcls,t(l,h)Vt,:(l,h)W(l,h)+HT1Bl]≜t=1∑Tηtl在第l 层中,A(l,h) 和V(l,h) 分别是对应于第h 个注意力头的注意力图和Value矩阵;W(l,h) 是第l 层中用于合并多个注意力头的权重矩阵,对应于第h 个头;B(l) 是第l 层中用于合并多个注意力头的偏置矩阵;Acls,t(l,h) 表示cls token对第t 个token的注意力值;Vt,:(l,h) 表示V(l,h) 的第t 行;H 和T 分别是注意力头的数量和token的数量;而值T 等于patch数P×P+1。
因此,第t 个patch的特征可以表示为ψt≜∑l=L′LL(ηtl),我们可以计算文本查询与第t 个图像patch之间的相似性。相应地,归因图Ψcls∈RP×P 被定义为:
Ψi,jcls≜sim(ψt,T^),where t=1+j+P∗(i−1).
通过对 cls token进行分解,我们可以识别哪些patch与查询更为相关。当查询包含特定实体时,这种方法特别有效,允许进行精确的定位。然而,在复杂的视觉问答(VQA)任务中,查询中往往没有明确提及实体,或者回答问题所涉及的逻辑和分析过程可能依赖于查询中没有明确提及的实体。为了解决这个问题,我们还定义了另一个互补归因图Ψcomp。该图旨在捕捉与查询具有潜在或隐含相关性的区域。
我们实验观察到,在CLIP的视觉Transformer中,查询特征T^ 与最终层中除cls token外的token的相似度得分可以(反向)选择重要区域。对应图像背景或大块单色区域的patch与T^ 的相似度得分显著高于代表特定实体(这些实体可能不一定出现在查询中)的token。一个可能的解释是,这些“空白”token本身缺乏有价值的信息,被Transformer视为寄存器。Transformer最初利用它们存储来自其他token的信息,随后通过注意力机制过滤和汇总这些存储的信息到cls token,以形成最终的预测。因此,与T^ 具有高相似度得分的除cls token外的token,代表信息含量低的patch,可以不予考虑。我们定义互补归因图如下:
Ψi,jcomp≜1−sim(L(ZtL),T^),where t=1+j+P∗(i−1).
ZtL 表示最后一个Transformer层的第t 个输出token。互补归因图与相似度成反比,表明缺乏信息的patch被忽略,仅保留具有潜在相关性的patch。
因此,我们获得了两张相互补充的归因图:Ψcls 明确识别与查询实体直接相关的区域,但可能遗漏一些可能相关的区域。Ψcomp 同样识别所有可能相关的区域,但缺乏特异性,无法突出显示与查询实体直接相关的区域。
通过以下操作整合两个归因图,我们得到CLIP的最终归因图:
Ψi,j≜Ψi,jcls+Ψi,jcomp−Ψi,jcls∗Ψi,jcomp
这种整合可以被视为一种soft OR操作。
Obtaining Attribution Map from LLaVA
LLaVA模型是一种MLLM,它利用多头自注意力机制从文本查询和图像patch中提取信息,预测后续的token。给定长度为N 的文本token序列Ztext={Zttext}t=1N,以及长度为P×P 的图像token序列Zimg={Ztimg}t=1P×P,LLaVA生成一个长度为M 的新token序列Zout={Ztout}t=1M。我们直接使用tokenZtout 与每个图像token之间的注意力权重作为Ztout 对该图像patch的归因。类似于CLIP模型的策略,我们选择深层的注意力图来提取注意力权重。最终的归因图在整个生成的token序列和所有注意力头之间平均。形式上,归因图Ψ 定义为:
Ψi,j≜MH1m=1∑Mh=1∑HAm,t(Lˉ,h),where t=j+P∗(i−1).
在定义中,A(Lˉ,h) 是第Lˉ 层的第h 个头对应的注意力图,其中Lˉ 是一个超参数集合;为了符号的简洁性,此处A(Lˉ,h) 是整个注意力图的一个子矩阵,仅包括Zout 和Zimg 之间的交叉注意力;Am,t(Lˉ,h) 仍然表示从第m 个token到第t 个token的注意力值。
From Token Space to Pixel Space
Ψ∈RP×P 的归因图在token空间中生成。我们首先将其调整回像素空间以获得原始热图Φ^≜Resize(Ψ)。由于patch的方形形状,Φ^ 中的掩码模式也呈矩形。为了减轻矩形掩码模式与物体不规则形状不匹配的问题,我们应用均值滤波器以获得最终热图Φ≜Meank(Φ^),其中k 是滤波器的核大小。然后,将最终热图Φ 通过将其用作 alpha 通道叠加到原始图像上,得到标注后的最终图像Ia。
实验
主实验
与先前针对各种LVLMs的文本和视觉提示方法的比较。
消融实验
关于辅助VLM Scale的消融实验。
关于均值滤波器核大小的消融实验。
关于用于归因图提取的Transformer层的消融实验
本文方法与文本self-reflection方法的比较及结合。
本文方法在幻觉数据集上的表现。
总结
在这项工作中,我们介绍了一种名为Attention Prompting on Image(API)的新型视觉提示技术,该技术结合了一个辅助的LVLM,根据文本查询在图像上生成注意力热图。
我们广泛的实验证明了我们的提示方法在不同基准上对不同LVLM的优势。
此外,我们的方法为使用视觉信号进行LVLM集成和LVLM自我反思提供了新的见解。
小嗷犬
分享技术,记录生活
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 小嗷犬!