Convolution Notes
万能近似定理
万能近似定理(universal approximation theorem)(Hornik et al., 1989; Cybenko, 1989) 表明,一个前馈神经网络如果具有线性输出层和至少一层具有任何一种 ‘‘挤压’’ 性质的激活函数(例如logistic sigmoid激活函数)的隐藏层,只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的 Borel 可测函数
动机
卷积运算通过三个重要的思想来帮助改进机器学习系统:稀疏交互(sparseinteractions)、参数共享(parameter sharing)、等变表示(equivariant representa-tions)。
卷积函数变体
基本卷积函数
Zi,j,k=c(K,V,s)i,j,k=∑l,m,n[Vl,(j−1)×s+m,(k−1)×s+n,Ki,l,m,n]Z_{i, j, k}=c(\\mathbf{K}, \\mathbf{V}, s)_{i, j, k}=\\sum_{l, m, n}\\left[V_{l,(j-1) \\times s+m,(k-1) \\times s+n,} K_{i, l, m, n}\\right]Zi,j,k=c(K,V,s)i,j,k=l,m,n∑[Vl,(j−1)×s+m,(k−1)×s+n,Ki,l,m,n]
如果输入的图像宽度是 m,核的宽度是 k,那么输出的宽度就会变成m−k+1m-k+1m−k+1
Padding
在输入层外侧添加0,使得输出层的空间宽度不会快速减少
有效(valid)卷积
没有padding,直接卷积,这种情况下将会导致输出空间宽度迅速减小,直至变为1
全(full)卷积
进行了足够多的零填充使得每个像素在每个方向上恰好被访问了 k 次,最终输出图像的宽度为 m + k − 1
通过向每层添加五个隐含的零,我们防止了表示随深度收缩。这允许我们设计一个任意深的卷积网络。
非共享卷积(unshared convolution)
对少量通道间的连接进行建模允许网络使用更少的参数,这降低了存储的消耗以及提高了统计效率,并且减少了前向和反向传播所需要的计算量。这些目标的实现并没有减少隐藏单元的数目。
平铺卷积(tiled convolution)
对卷积层和局部连接层进行了折衷。