梯度消失和梯度爆炸

1 是什么

首先，BP 神经网络基于梯度下降策略，以目标的负梯度方向进行权重更新， $ω \leftarrow ω + Δ ω$ , 给定学习率 $α, Δ ω = - α \times \frac{\partial L oss}{\partial ω}$ 。假设每层全连接网络激活函数为 $f (\dot{)}$ , 则 $i + 1$ 层的输入 $f_{i + 1} = f (f_{i} * w_{i + 1} + b_{i + 1})$ , 则 $\frac{\partial f _{i + 1}}{\partial w _{i + 1}} = f_{i}$

根据链式求导法则，当需要更新第二层隐层梯度信息时: $Δ w_{1} = \frac{\partial Loss}{\partial w _{2}} = \frac{\partial L os s}{\partial f _{4}} \frac{\partial f _{4}}{\partial f _{3}} \frac{\partial f _{3}}{\partial f _{2}} \frac{\partial f _{2}}{\partial w _{2}}$ ，又 $\frac{\partial f _{2}}{\partial w _{2}} = f_{1}$ 。发现每一层的更新都需要求激活函数在上层输出值下的导数值。如果激活函数 >1 或 <1，在层数加深时，导数就会呈指数型变化，就可能产生梯度消失或梯度爆炸。

接下来，我们来看一段代码。


 class TorchNet():
    dtype = torch.float
    device = torch.device('cpu')
	
    # 定义batch size, 输入特征数， 隐层特征，输出数
    N, D_in, H, D_out = 64, 1000, 100, 10

    # 随机初始化
    x = torch.randn(N, D_in, device=device, dtype=dtype)
    y = torch.randn(N, D_out, device=device, dtype=dtype)

    w1 = torch.randn(D_in, H, device=device, dtype=dtype)
    w2 = torch.randn(H, D_out, device=device, dtype=dtype)
	# 定义学习率，可以修改一下，看看结果
    learning_rate = 1e-6
    for t in range(500):
        # forward
        h = x.mm(w1)
        h_relu = h.clamp(min=0)
        y_pred = h_relu.mm(w2)

        # compute loss
        loss = (y_pred - y).pow(2).sum().item()
        print(t, loss)

        # backprop to compute gradients
        grad_y_pred = 2 * (y_pred - y)
        grad_w2 = h_relu.t().mm(grad_y_pred)
        grad_h_relu = grad_y_pred.mm(w2.t())
        grad_h = grad_h_relu.clone()
        grad_h[h<0] = 0
        grad_w1 = x.t().mm(grad_h)

        # update gradientts
        w1 -= learning_rate * grad_w1
        w2 -= learning_rate * grad_w2

（可以通过链式求导法则理解）我们看到，权值 w 的更新和梯度息息相关，每次反向传播 , 如果激活函数的导数趋近于 0，那么权值在多重传播之后可能不再更新，则是梯度消失；如果梯度取值大于 1，经过多层传播之后，权值的调整就会变得很大，导致网络不稳定。

这些问题都是“反向传播训练法则”所具有的先天问题。

2. 如何判断

看 loss 的变化/权值/参数的变化是否稳定，或者无法更新
loss 是否变成了 NaN
权重是否变成 NaN

3. 如何解决出现的问题；如何避免

我们看到，梯度爆炸或者消失的根本原因来自于激活函数，同时，激活函数的导数值又影响实际的梯度更新，因此我们考虑从激活函数和函数的导数值来解决激活函数的问题。

3.1 重新设计网络

层数更少的简单网络能够降低梯度消失和梯度爆炸的影响
更小的训练批次也能在实验中起效果
截断传播的层数
同样，长短期记忆网络（LSTM）和相关的门单元也能减少梯度爆炸。
对网络权重使用正则，防止过拟合。 $L oss = (y - W^{T} x)^{2} + α ∥ W ∥^{2}$

3.2 修改激活函数

修改为 ReLU，leaky ReLU，PReLU，ELU，SELU，都可以。也可以使用 maxout

3.3 使用梯度截断（Gradient clipping）

对大型深层网络，还是要检查和限制梯度大小，进行梯度截断。WGAN 中，限制梯度更新是为了保证 lipchitz 条件。

3.4 Batch Normalization

Batchnorm 具有加速网络收敛速度，提升训练稳定性的效果，通过规范化操作将输出信号 x 规范化到均值为 0、方差为 1，保证网络的稳定性。batchnorm 在反向传播的过程中，由于对输入信号做了 scale 和 shift，通过观察激活函数及其函数的图像(请点击链接中的超链)，这样可以是激活函数的值落在对非线性函数比较敏感的区域。这样也会使损失函数产生较大的变化，让梯度整体变大，避免梯度消失；同时也意味着收敛速度更快，学习速度更快。

3.5 ResNet，残差网络结构

终结者，ResNet。

如何选择激活函数；关于激活函数，你想要知道的都在这

激活函数对于神经网络，网络的每一层计算可以理解为f(wx+b)=f(w\'x)，每一层可以认为是每个权重矩阵W 乘输入特征矩阵X。根据矩阵乘法，如果是线性激励，即激活函数为f(x) = x，多层网络相当于一层网络。比如：f(W_1*f(W_2x))=W_1 W_2x=Wx 。因此，需要引入非线性激活函数，对特征进行 ..

卷积核

为什么需要卷积操作 1、特征提取使用特定的卷积核，能够提取出图片数据特定方向的信息卷积操作即是对图像的像素点进行乘运算并将结果矩阵的所有值求和得出一个数的结果 [图片] 此处 input 即是一个 55 像素大小的图片使用一个 33 矩阵对图片最左上角 9 个像素点进行卷积运算（乘）矩阵算法1 依次从坐标 0， ..

从 transformer 追溯到 CNN

为什么要写 transformer 的文章呢？大概归于 3 个原因 1）目前我对于大模型的理解仅停留在使用层面，API、提示词、Agent 玩的很 6，无法接触到很核心的东西。长期下去可能也没啥进步 2）网上对于 transformer 讲解的文章或者视频大多很晦涩难懂，没点神经网络的基础是真的很难看懂，希望这篇文章能 ..

Audio

Lower Frame Rate Tech 作为传统的交叉熵训练的神经网络声学模型的替代方法，其中，交叉熵方法每 10ms 输出一帧。与传统模型相反，CTC 联合声学模型一起学习对齐，并且除了传统声学状态单元外还输出空白符号。这允许 CTC 模型以低帧率运行，与传统模型中的 10ms 不同，其是每 30ms 输出一帧， ..

Do Transformers Really Perform Bad for Graph Representation

Motivation 原有将 transformer 应用于图的效果并不好节点重要性，图结构性信息往往在目前的工作中被忽略 Thinking 为什么 GNN 效果不好 GNN 网络不能做的到很深，GNN 的一层本质上是在根据邻居节点的信息融合，层数过大会导致特征的趋同，反而丢失特征信息 oversmoothing，因 ..

Capsules with Inverted Dot-Product Attention Routing

启发前面的卷积部分可以换成一个更高级的 backbone（backbone 不变了）改变一种胶囊结构（DE 扩张 + 缩小 W）路由算法（3-5 篇文章，总结出一个）--采用他的并发路由方法 + 改进？提出一种 dropout（还是高低阶配合）实验部分（和这几篇文章保持一直：MNIST、Fashion-MNI ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于