深度学习知识卡片:训练集、开发集与测试集

继续之前的:

训练集、开发集与测试集
训练集、开发集与测试集

这三者是在进行一个机器学习项目中非常重要的内容。它们的确定往往决定了这个项目的走向。错误的训练集、开发集和测试集的划分很可能会让一个团队浪费数月时间。

  • Training Set:顾名思义,是用来训练模型的。因此它占了所有数据的绝大部分。
  • Development Set:用来对训练集训练出来的模型进行测试,通过测试结果来不断地优化模型。
  • Test Set:在训练结束后对训练出的模型进行一次最终的评估所用的数据集。

它们的划分非常简单,一句话说就是要保持它们每一个数据集的分布是相同的。三者都指向同一目标,就可以正常地用来训练测试。如果他们指向的分布都是不同的,可能就是一场灾难。

上图展示了三个分割数据集及其表现所需要注意的地方,也就是说如果它们间有不同的正确率,那么我们该如何修正这些「差别」。例如:训练集的正确率明显高于验证集与测试集表明模型过拟合,三个数据集的正确率都明显低于可接受水平可能是因为欠拟合。