特征选择(Feature Selection)是查找和选择数据集中最有用特征的过程,是机器学习流程中的一大关键步骤。不必要的特征会降低训练速度、降低模型可解释性,并且最重要的是还会降低其在测试集上的泛化表现。目前存在一些专用型的特征选择方法,我常常要一遍又一遍地将它们应用于机器学习问题,这实在让人心累。所以,这里用 Python 构建了一个特征选择类并开放在了 GitHub 上。这个 Feature Selector 包含一些最常用的特征选择方法:
- 具有高缺失值百分比的特征
- 共线性(高度相关的)特征
- 在基于树的模型中重要度为零的特征
- 重要度较低的特征
- 具有单个唯一值(Unique Value)的特征