继续之前的:
- 《深度学习知识卡片:深度学习基本概念》
- 《深度学习知识卡片:Logistic 回归》
- 《深度学习知识卡片:浅层网络的特点》
- 《深度学习知识卡片:深度神经网络的特点》
- 《深度学习知识卡片:偏差与方差》
- 《深度学习知识卡片:正则化》
- 《深度学习知识卡片:最优化训练》
下面就是具体的最优化算法了,包括最基本的小批量随机梯度下降、带动量的随机梯度下降和 RMSProp 等适应性学习率算法。
小批量随机梯度下降(通常 SGD 指的就是这种)使用一个批量的数据更新参数,因此大大降低了一次迭代所需的计算量。这种方法降低了更新参数[……]