[论文阅读]Accelerating DETR Convergence via Semantic-Aligned Matching

收敛缓慢的原因：初始状态下，每个object query要跟所有的空间位置进行匹配，需要相当长的训练周期来学习与目标相关的区域。SMCA-DETR、Conditional DETR、Deformable DETR中都有提及。

造成object query无法正确聚焦于特定区域的原因是Cross-Attention之间的多个模块（Self-Attention和FFN）对object query进行了多次映射，使得object query与图像特征F的语义未对齐，也就是说，object query和图像特征F被映射到了不同的嵌入空间（Embedding Space）内。

Deformable DETR用可形变注意力机制代替原来的全局密集注意力，只关注小部分的特征

Conditional DETR、SMCA-DETR将交叉注意力模块改为空间条件化的。

Motivation: Siamese-based architecture 孪生结构

通过两个相同的子网络将匹配双方的语义对齐，以投影到相同的embedding space，便于后续匹配。为object query提供了一个强大的先验，使其只关注于语义相似的区域上。

物体的关键点和端点在目标识别和定位中非常重要，显式地搜索多个显著点，并用于语义对齐匹配

交叉注意力模块->匹配与蒸馏给定编码图像特征和object queries的参考框，，RoIAlign：是通过重采样得到的，不涉及任何投影，因而object query embedding跟共享相同的嵌入空间，为object queries提供先验关注语义相似的区域。

对于检测任务来说，物体的显著点是识别和定位的关键。因此选择显著点的特征作为Semantics Aligner的输出。

假设注意力头的数量为，通常设置为8。通过RoIAlign得到特征后，通过ConvNet和多层感知器每个区域预测个显著点坐标，. 显著点坐标的预测是限制在参考框内的，后面会进行解释。显著点的特征随后通过双线性插值从中采样得到。个采样特征向量连接起来作为新的object query embedding，使得每个注意力头关注一个显著点的特征。

Semantics Aligner高效地产生了与编码图像特征语义对齐的object queries，但是同时也产生了问题：之前的query embedding 包含的对检测有价值的信息并没有应用到交叉注意力模块中。

又利用先前的query embedding作为输入通过线性投影和sigmoid函数产生了重加权系数。通过与重加权系数相乘，新产生的query embedding和对应的position embedding都被重加权来突出重要特征，有效地利用先前的有价值的信息

是线性投影，是sigmoid函数，是逐元素相乘

论文阅读

#论文阅读 #Object Detection #DETR-like #transformer

[论文阅读]Accelerating DETR Convergence via Semantic-Aligned Matching

http://k0145vin.xyz/2022/10/29/论文阅读-Accelerating-DETR-Convergence-via-Semantic-Aligned-Matching/

作者

一瓶AD钙

发布于

2022年10月29日

许可协议

[论文阅读]AdaMixer: A Fast-Converging Query-Based Object Detector 上一篇

[论文阅读] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 下一篇