继续之前的:
- 《深度学习知识卡片:深度学习基本概念》
- 《深度学习知识卡片:Logistic 回归》
- 《深度学习知识卡片:浅层网络的特点》
- 《深度学习知识卡片:深度神经网络的特点》
- 《深度学习知识卡片:偏差与方差》
- 《深度学习知识卡片:正则化》
- 《深度学习知识卡片:最优化训练》
- 《深度学习知识卡片:最优化算法》
- 《深度学习知识卡片:超参数调优》
- 《深度学习知识卡片:结构化机器学习过程》
- 《深度学习知识卡片:误差分析》

这三者是在进行一个机器学习项目中非常重要的内容。它们的确定往往决定了这个项目的走向。错误的训练集、开发集和测试集的划分很可能会让一个团队浪费数月时间。
- Training Set:顾名思义,是用来训练模型的。因此它占了所有数据的绝大部分。
- Development Set:用来对训练集训练出来的模型进行测试,通过测试结果来不断地优化模型。
- Test Set:在训练结束后对训练出的模型进行一次最终的评估所用的数据集。
它们的划分非常简单,一句话说就是要保持它们每一个数据集的分布是相同的。三者都指向同一目标,就可以正常地用来训练测试。如果他们指向的分布都是不同的,可能就是一场灾难。
上图展示了三个分割数据集及其表现所需要注意的地方,也就是说如果它们间有不同的正确率,那么我们该如何修正这些「差别」。例如:训练集的正确率明显高于验证集与测试集表明模型过拟合,三个数据集的正确率都明显低于可接受水平可能是因为欠拟合。