深度学习知识卡片:浅层网络的特点

继续之前的:

浅层网络的特点
浅层网络的特点

左上:浅层网络即隐藏层数较少,如图所示,这里仅有一个隐藏层。

左下:这里介绍了不同激活函数的特点:

  • sigmoid:sigmoid 函数常用于二分分类问题,或者多分类问题的最后一层,主要是由于其归一化特性。sigmoid 函数在两侧会出现梯度趋于零的情况,会导致训练缓慢。
  • tanh:相对于 sigmoid,tanh 函数的优点是梯度值更大,可以使训练速度变快。
  • ReLU:可以理解为阈值激活(spiking model 的特例,类似生物神经的工作方式),该函数很常用,基本是默认选择的激活函数,优点是不会导致训练缓慢的问题,并且由于激活值为零的节点不会参与反向传播,该函数还有稀疏化网络的效果。
  • Leaky ReLU:避免了零激活值的结果,使得反向传播过程始终执行,但在实践中很少用。

右上:为什么要使用激活函数呢?更准确地说是,为什么要使用非线性激活函数呢?上图中的实例可以看出,没有激活函数的神经网络经过两层的传播,最终得到的结果和单层的线性运算是一样的,也就是说,没有使用非线性激活函数的话,无论多少层的神经网络都等价于单层神经网络(不包含输入层)。

右下:如何初始化参数 w、b 的值?当将所有参数初始化为零的时候,会使所有的节点变得相同,在训练过程中只能学到相同的特征,而无法学到多层级、多样化的特征。解决办法是随机初始化所有参数,但仅需少量的方差就行,因此使用 Rand(0.01)进行初始化,其中 0.01 也是超参数之一。