[论文阅读]DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

Approach

Context-Aware Prompting

Language-domain prompting

不再使用人工设计的模板作为文本提示，受CoOp的启发，使用可学习的文本上下文作为基线，只包含语言域的提示，则文本编码器的输入变为： \[[\mathbf{p},\mathbf{e}_k],\quad 1\leq k\leq K,\]

其中，\(\mathbf{p}\in\mathbb{R}^{N\times C}\)为可学习的文本上下文，\(\mathbf{e}_k\in\mathbb{R}^C\)为第k类名称的嵌入。

Vision-to-language prompting

包含视觉内容的描述可以是文本更加精确。因此，使用transformer decoder中的交叉注意力机制来建模视觉和语言之间的交互。

有两种不同的上下文感知提示策略，正如Fig4中展示的。第一种策略称为pre-model prompting，把特征\([\bar{\mathbf{z}},\mathbf{z}]\)传入transformer decoder中编码视觉上下文： \[\mathbf{v}_{\operatorname{pre}}=\operatorname{TransDecoder}(\mathbf{q},[\bar{\mathbf{z}},\mathbf{z}])\] 其中，\(\mathbf{q}\in\mathbb{R}^{N\times C}\)是一个可学习query的集合，\(\mathbf{v}_{\operatorname{pre}}\in\mathbb{R}^{N\times C}\)是提取出来的视觉上下文。用\(\mathbf{v}_{\operatorname{pre}}\)替代上式中的\(\mathbf{p}\)作为文本编码器的输入。

另外一种选择是在文本编码器之后细化文本特征，称为post-model prompting。使用CoOp生成文本特征，并直接作为transformer decoder的查询： \[\mathbf{v}_{\operatorname{post}}=\operatorname{TransDecoder}(\mathbf{t},[\bar{\mathbf{z}},\mathbf{z}])\] 这种方式使得文本可以寻找最相关的视觉线索，然后通过残差连接更新文本特征： \[\mathbf{t}\leftarrow\mathbf{t}+\gamma\mathbf{v}_{\operatorname{post}}\] 其中，\(\gamma\in\mathbb{R}^C\)是个可学习参数，来控制残差连接的比例。

尽管两种版本的目标相同，但是文章作者更倾向于后提示，主要原因有两个：（1）后提示更高效。由于预提示的输入依赖于图像，因此在推理过程中需要文本编码器额外的前向通道。在后提示的情况下，可以在训练后保存提取的文本特征，从而减少推理过程中文本编码器带来的开销。（2）实验结果也表明，后提示的性能更好。

Instantiations

Semantic segmentation

整个架构是模型无关的，可以应用于任何稠密预测任务。提出使用一个辅助目标来更好地利用像素-文本得分图进行分割。由于得分图\(\mathbf{s}\in\mathbb{R}^{H_4W_4\times K}\)可以看作一个小的分割结果，因此可以在上面计算一个分割损失： \[\mathcal{L}^{\operatorname{seg}}_{\operatorname{aux}}=\operatorname{CrossEntropy}(\operatorname{Softmax}(\mathbf{s}/\tau),\mathbf{y})\] 其中，\(\tau=0.07,\mathbf{y}\in\{1,\dots,K\}^{H_4W_4}\)是真实值标签。辅助分割损失函数可以帮助特征图更快恢复其局部性，有利于稠密预测任务进行分割和检测。 #### Object detection & instance segmentation

在这种情况下，没有真实值分割标签。为了构建类似于分割中的辅助损失，使用边界框和标签构建一个二进制目标\(\tilde{\mathbf{y}}\in\{0,1\}^{H_4W_4\times K}\)。辅助目标可以定义为二元交叉熵损失： \[\mathcal{L}^{\operatorname{det}}_{\operatorname{aux}}=\operatorname{BinaryCrossEntropy}(\operatorname{Sigmoid}(\mathbf{s}/\tau),\tilde{\mathbf{y}})\]

论文阅读

#论文阅读 #CLIP

[论文阅读]DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

http://k0145vin.xyz/2023/03/10/论文阅读-DenseCLIP-Language-Guided-Dense-Prediction-with-Context-Aware-Prompting/

作者

一瓶AD钙

发布于

2023年3月10日

许可协议

[论文阅读] AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION 上一篇

[论文阅读]Video Swin Transformer 下一篇