[论文阅读]DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

Approach

Context-Aware Prompting

Language-domain prompting

不再使用人工设计的模板作为文本提示,受CoOp的启发,使用可学习的文本上下文作为基线,只包含语言域的提示,则文本编码器的输入变为: \[[\mathbf{p},\mathbf{e}_k],\quad 1\leq k\leq K,\]

其中,\(\mathbf{p}\in\mathbb{R}^{N\times C}\)为可学习的文本上下文,\(\mathbf{e}_k\in\mathbb{R}^C\)为第k类名称的嵌入。

Vision-to-language prompting

包含视觉内容的描述可以是文本更加精确。因此,使用transformer decoder中的交叉注意力机制来建模视觉和语言之间的交互。

有两种不同的上下文感知提示策略,正如Fig4中展示的。第一种策略称为pre-model prompting,把特征\([\bar{\mathbf{z}},\mathbf{z}]\)传入transformer decoder中编码视觉上下文: \[\mathbf{v}_{\operatorname{pre}}=\operatorname{TransDecoder}(\mathbf{q},[\bar{\mathbf{z}},\mathbf{z}])\] 其中,\(\mathbf{q}\in\mathbb{R}^{N\times C}\)是一个可学习query的集合,\(\mathbf{v}_{\operatorname{pre}}\in\mathbb{R}^{N\times C}\)是提取出来的视觉上下文。用\(\mathbf{v}_{\operatorname{pre}}\)替代上式中的\(\mathbf{p}\)作为文本编码器的输入。

另外一种选择是在文本编码器之后细化文本特征,称为post-model prompting。使用CoOp生成文本特征,并直接作为transformer decoder的查询: \[\mathbf{v}_{\operatorname{post}}=\operatorname{TransDecoder}(\mathbf{t},[\bar{\mathbf{z}},\mathbf{z}])\] 这种方式使得文本可以寻找最相关的视觉线索,然后通过残差连接更新文本特征: \[\mathbf{t}\leftarrow\mathbf{t}+\gamma\mathbf{v}_{\operatorname{post}}\] 其中,\(\gamma\in\mathbb{R}^C\)是个可学习参数,来控制残差连接的比例。

尽管两种版本的目标相同,但是文章作者更倾向于后提示,主要原因有两个:(1)后提示更高效。由于预提示的输入依赖于图像,因此在推理过程中需要文本编码器额外的前向通道。在后提示的情况下,可以在训练后保存提取的文本特征,从而减少推理过程中文本编码器带来的开销。(2)实验结果也表明,后提示的性能更好。

Instantiations

Semantic segmentation

整个架构是模型无关的,可以应用于任何稠密预测任务。提出使用一个辅助目标来更好地利用像素-文本得分图进行分割。由于得分图\(\mathbf{s}\in\mathbb{R}^{H_4W_4\times K}\)可以看作一个小的分割结果,因此可以在上面计算一个分割损失: \[\mathcal{L}^{\operatorname{seg}}_{\operatorname{aux}}=\operatorname{CrossEntropy}(\operatorname{Softmax}(\mathbf{s}/\tau),\mathbf{y})\] 其中,\(\tau=0.07,\mathbf{y}\in\{1,\dots,K\}^{H_4W_4}\)是真实值标签。辅助分割损失函数可以帮助特征图更快恢复其局部性,有利于稠密预测任务进行分割和检测。 #### Object detection & instance segmentation

在这种情况下,没有真实值分割标签。为了构建类似于分割中的辅助损失,使用边界框和标签构建一个二进制目标\(\tilde{\mathbf{y}}\in\{0,1\}^{H_4W_4\times K}\)。辅助目标可以定义为二元交叉熵损失: \[\mathcal{L}^{\operatorname{det}}_{\operatorname{aux}}=\operatorname{BinaryCrossEntropy}(\operatorname{Sigmoid}(\mathbf{s}/\tau),\tilde{\mathbf{y}})\]


[论文阅读]DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting
http://k0145vin.xyz/2023/03/10/论文阅读-DenseCLIP-Language-Guided-Dense-Prediction-with-Context-Aware-Prompting/
作者
一瓶AD钙
发布于
2023年3月10日
许可协议