[论文阅读]Accelerating DETR Convergence via Semantic-Aligned Matching

收敛缓慢的原因:初始状态下,每个object query要跟所有的空间位置进行匹配,需要相当长的训练周期来学习与目标相关的区域。SMCA-DETR、Conditional DETR、Deformable DETR中都有提及。

造成object query无法正确聚焦于特定区域的原因是Cross-Attention之间的多个模块(Self-Attention和FFN)对object query进行了多次映射,使得object query与图像特征F的语义未对齐,也就是说,object query和图像特征F被映射到了不同的嵌入空间(Embedding Space)内。

Deformable DETR用可形变注意力机制代替原来的全局密集注意力,只关注小部分的特征

Conditional DETR、SMCA-DETR将交叉注意力模块改为空间条件化的。

Motivation: Siamese-based architecture 孪生结构

通过两个相同的子网络将匹配双方的语义对齐,以投影到相同的embedding space,便于后续匹配。为object query提供了一个强大的先验,使其只关注于语义相似的区域上。

物体的关键点和端点在目标识别和定位中非常重要,显式地搜索多个显著点,并用于语义对齐匹配

交叉注意力模块->匹配与蒸馏 给定编码图像特征和object queries的参考框,RoIAlign: 是通过重采样得到的,不涉及任何投影,因而object query embedding共享相同的嵌入空间,为object queries提供先验关注语义相似的区域。

对于检测任务来说,物体的显著点是识别和定位的关键。因此选择显著点的特征作为Semantics Aligner的输出。

假设注意力头的数量为,通常设置为8。通过RoIAlign得到特征后,通过ConvNet和多层感知器每个区域预测个显著点坐标,. 显著点坐标的预测是限制在参考框内的,后面会进行解释。显著点的特征随后通过双线性插值从中采样得到。个采样特征向量连接起来作为新的object query embedding,使得每个注意力头关注一个显著点的特征。

Semantics Aligner高效地产生了与编码图像特征语义对齐的object queries,但是同时也产生了问题:之前的query embedding 包含的对检测有价值的信息并没有应用到交叉注意力模块中。

又利用先前的query embedding作为输入通过线性投影和sigmoid函数产生了重加权系数。通过与重加权系数相乘,新产生的query embedding和对应的position embedding都被重加权来突出重要特征,有效地利用先前的有价值的信息

是线性投影,是sigmoid函数,是逐元素相乘


[论文阅读]Accelerating DETR Convergence via Semantic-Aligned Matching
http://k0145vin.xyz/2022/10/29/论文阅读-Accelerating-DETR-Convergence-via-Semantic-Aligned-Matching/
作者
一瓶AD钙
发布于
2022年10月29日
许可协议