模型越深,就会出现梯度消失,梯度爆炸的现象,导致深模型难训练。
Residual Networks 网络很深,但是效果很好,这是怎么做到的呢?
——参考吴恩达老师的讲解
resnet的突破:加入skip connections
残差块:
残差块具体操作位置:
一般网络计算:
残差网络计算:
模型越深,w,b可能会消失到0,继续训练,很难更新参数,很难再训练。而resnets采用了short cut,增加了a[l],可以将residual block看成是identity function:f(x)=x(返回自己),如下式,返回a[l]:
同时采用same padding或者为a[l]添加权重矩阵,使得Z[L+2]与a[l]的shape一致,计算方便。
残差网络具体构造:
same padding,输出shape一致,下面的虚弧线代表pooling,会导致长宽缩小,此时shape不一致,使用权重矩阵来提高a[l]维数,让shape保持一致。