[论文阅读]DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

Carion等人创造性地将Transformer引入了目标检测领域,提出了DETR,掀起了CV业内一阵研究的热潮。DETR的提出是创造性的,但是也存在很多问题,例如收敛速度满,导致训练困难(要训练500个epochs才能达到理性的效果)。因而众多学者开始从不同方面入手,于对DETR进行优化,提出了 Dynamic DETR、DAB-DETR、Conditional DETR、Anchor DETR、Deformable DETR等DETR-like算法。

但是,鲜有人关注DETR中二分图匹配部分对训练过程中收敛速度的影响。有文章已经证明DETR中使用的匈牙利算法并不是稳定匹配,\(cost\)矩阵的微小变化都可能会导致匹配结果发生巨大的变化,进一步导致decoder queries中优化目标发生变化。

衡量标准

在DN-DETR中,作者提出了一种衡量二部匹配结果稳定性的标准:

对于每张训练图片,将Transformer decoders预测得到的物体定义为\(O^{i}={O_{0}^{i},O_{1}^{i},\dots,O_{N-1}^{i}}\)其中\(i\)表示第\(i\)个epoch,\(N\)为预测出的物体的数量。将ground truth中的物体定义为\(T={T_0,T_1,\dots,T_{M-1}}\) 其中\(M\)为ground truth中物体的数量。 在二部匹配后,计算一个索引向量\(V^i={V_0^i,V_1^i,\dots,V_{N-1}^i}\)来存储第\(i\)的epoch的匹配结果。

\[ V_n^i=\left\{\begin{aligned} m, & \ if\ O_n^i\ matches \ T_m \\ -1, & \ if\ O_n^i\ matches\ nothing \end{aligned}\right. \]


[论文阅读]DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
http://k0145vin.xyz/2022/07/09/论文阅读-DN-DETR-Accelerate-DETR-Training-by-Introducing-Query-DeNoising/
作者
一瓶AD钙
发布于
2022年7月9日
许可协议