特征工程必备技巧

特征工程也被称为特征构造,是从现有数据中构造新的特征从而训练机器学习模型的过程,同时也是传统模式识别技术的升级。机器学习算法只能从我们给定的数据中学习,所以构造一个和任务相关的特征是至关重要的。通常,特征工程是一个冗长的人工过程,依赖于领域知识、直觉和数据操作。这个过程可能是极其枯燥的,同时最终得到的特征将会受到人的主观性和时间的限制。特征工程自动化旨在通过从数据集中自动构造候选特征,并从中选择最优特征用于训练来帮助数据科学家。

随着我们在机器学习、数据建模、数据挖掘分析这条发展路上越走越远,其实越会感觉到特征工程的重要性。跨象乘云™ 的《特征工程》课程,正是向大数据,人工智能专业学生系统讲解特征工程的完整环节,通过大量的实践操作掌握特侦工程的关键技术。此前,我们发布了特征工程系列:特征筛选的原理与实现()/()两篇教程。同时,平时我们在很多地方都会看到一些很好的特征工程技巧。今天介绍的这个 GitHub 项目,其目的就是把这些小技巧打包成一个又一个的小锦囊,正在不断更新,目前提供的 22 个必备技巧包括 ——

  1. 特征无量纲化的常见操作方法
  2. 怎么进行多项式 or 对数的数据变换?
  3. 常用的统计图在 Python 里怎么画?
  4. 怎么去除 DataFrame 里的缺失值?
  5. 怎么把被错误填充的缺失值还原?
  6. 怎么定义一个方法去填充分类变量的空值?
  7. 怎么定义一个方法去填充数值变量的空值?
  8. 怎么把几个图表一起在同一张图上显示?
  9. 怎么把画出堆积图来看占比关系?
  10. 怎么对满足某种条件的变量修改其变量值?
  11. 怎么通过正则提取字符串里的指定内容?
  12. 如何利用字典批量修改变量值?
  13. 如何对类别变量进行独热编码?
  14. 如何把『年龄』字段按照我们的阈值分段?
  15. 如何使用 sklearn 的多项式来衍生更多的变量?
  16. 如何根据变量相关性画出热力图?
  17. 如何把分布修正为类正态分布?
  18. 怎么找出数据集中有数据倾斜的特征?
  19. 怎么尽可能地修正数据倾斜的特征?
  20. 怎么简单使用 PCA 来划分数据且可视化呢?
  21. 怎么简单使用 LDA 来划分数据且可视化呢?
  22. 怎么来管理我们的建模项目文件?

GitHub地址项目 GitHub 地址