特征工程也被称为特征构造,是从现有数据中构造新的特征从而训练机器学习模型的过程,同时也是传统模式识别技术的升级。机器学习算法只能从我们给定的数据中学习,所以构造一个和任务相关的特征是至关重要的。通常,特征工程是一个冗长的人工过程,依赖于领域知识、直觉和数据操作。这个过程可能是极其枯燥的,同时最终得到的特征将会受到人的主观性和时间的限制。特征工程自动化旨在通过从数据集中自动构造候选特征,并从中选择最优特征用于训练来帮助数据科学家。
随着我们在机器学习、数据建模、数据挖掘分析这条发展路上越走越远,其实越会感觉到特征工程的重要性。跨象乘云™ 的《特征工程》课程,正是向大数据,人工智能专业学生系统讲解特征工程的完整环节,通过大量的实践操作掌握特侦工程的关键技术。此前,我们发布了特征工程系列:特征筛选的原理与实现(上)/(下)两篇教程。同时,平时我们在很多地方都会看到一些很好的特征工程技巧。今天介绍的这个 GitHub 项目,其目的就是把这些小技巧打包成一个又一个的小锦囊,正在不断更新,目前提供的 22 个必备技巧包括 ——
- 特征无量纲化的常见操作方法
- 怎么进行多项式 or 对数的数据变换?
- 常用的统计图在 Python 里怎么画?
- 怎么去除 DataFrame 里的缺失值?
- 怎么把被错误填充的缺失值还原?
- 怎么定义一个方法去填充分类变量的空值?
- 怎么定义一个方法去填充数值变量的空值?
- 怎么把几个图表一起在同一张图上显示?
- 怎么把画出堆积图来看占比关系?
- 怎么对满足某种条件的变量修改其变量值?
- 怎么通过正则提取字符串里的指定内容?
- 如何利用字典批量修改变量值?
- 如何对类别变量进行独热编码?
- 如何把『年龄』字段按照我们的阈值分段?
- 如何使用 sklearn 的多项式来衍生更多的变量?
- 如何根据变量相关性画出热力图?
- 如何把分布修正为类正态分布?
- 怎么找出数据集中有数据倾斜的特征?
- 怎么尽可能地修正数据倾斜的特征?
- 怎么简单使用 PCA 来划分数据且可视化呢?
- 怎么简单使用 LDA 来划分数据且可视化呢?
- 怎么来管理我们的建模项目文件?