PyTorch学习

网络训练过程中容易出现梯度消失或者梯度爆炸的情况，导致大部分反向传播得到的梯度不起作用或者起反作用。因此就需要一种合理的权重初始化方法，让计算过程中的数值分布更稳定。

输出结果将从 $U (- a, a)$ 中采样，

$a = g a i n \times \sqrt{\frac{6}{f a n_i n + f a n_o u t}}$

类似的函数还有torch.init.xavier_normal，结果从 $N (0, s t d^{2})$ 中采样，

$s t d = g a i n \times \sqrt{\frac{2}{f a n_i n + f a n_o u t}}$

PyTorch

#PyTorch

PyTorch学习

http://k0145vin.xyz/2022/10/27/PyTorch学习/

作者

一瓶AD钙

发布于

2022年10月27日

许可协议