[论文阅读] Attention is All you Need encoder将符号表示的输入序列\((x_1,\dots,x_n)\)映射到连续表示的序列\((z_1,\dots,z_n)\)。给定\(z\),decoder再逐元素生成输出的符号序列\((y_1,\dots,y_n)\)。 Encoder encoder是由6个相同的层堆叠而成的,每层又包含2个字层,第一层是多头注意力机制,第二层是简单的全连接前馈网络。两个子层之间使用残差连接,然后进行归一 2022-10-28 论文阅读 #论文阅读 #transformer
PyTorch学习 torch.nn.init.xavier_uniform_(tensor,gain=1.0) 网络训练过程中容易出现梯度消失或者梯度爆炸的情况,导致大部分反向传播得到的梯度不起作用或者起反作用。因此就需要一种合理的权重初始化方法,让计算过程中的数值分布更稳定。 Xavier初始化也称Glorot初始化,出自文章Understanding the difficulty of training d 2022-10-27 PyTorch #PyTorch
[论文阅读]DN-DETR: Accelerate DETR Training by Introducing Query DeNoising Carion等人创造性地将Transformer引入了目标检测领域,提出了DETR,掀起了CV业内一阵研究的热潮。DETR的提出是创造性的,但是也存在很多问题,例如收敛速度满,导致训练困难(要训练500个epochs才能达到理性的效果)。因而众多学者开始从不同方面入手,于对DETR进行优化,提出了 Dynamic DETR、DAB-DETR、Conditional DETR、Anchor DETR 2022-07-09 论文阅读 #论文阅读 #Object Detection #DETR-like #transformer