AI智能
改变未来

残差网络:为什么残差网络效果比较好?

模型越深,就会出现梯度消失,梯度爆炸的现象,导致深模型难训练。
Residual Networks 网络很深,但是效果很好,这是怎么做到的呢?
——参考吴恩达老师的讲解
resnet的突破:加入skip connections
残差块:

残差块具体操作位置:

一般网络计算:

残差网络计算:

模型越深,w,b可能会消失到0,继续训练,很难更新参数,很难再训练。而resnets采用了short cut,增加了a[l],可以将residual block看成是identity function:f(x)=x(返回自己),如下式,返回a[l]:
同时采用same padding或者为a[l]添加权重矩阵,使得Z[L+2]与a[l]的shape一致,计算方便。
残差网络具体构造:

same padding,输出shape一致,下面的虚弧线代表pooling,会导致长宽缩小,此时shape不一致,使用权重矩阵来提高a[l]维数,让shape保持一致。

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » 残差网络:为什么残差网络效果比较好?