特征分析工程平台

机器学习越来越多地从人工设计模型转向使用自动优化的工具。然而,特征工程作为机器学习流程中可能最有价值的一个方面,几乎完全是人工的。

特征通常是建立在原始数据之上的特定表示,它是一个单独的可测量属性,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测具有一个特定的值。

特征工程
特征工程

因此,就像上图中的例子一样,每行通常表示一个特征向量,所有观察到的全部特征集,形成一个二维特征矩阵,也称为特征集。这类似于用来表示二维数据的数据框或电子表格。机器学习算法通常与这些数值矩阵或张量一起工作,因此绝大多数特征工程技术都是将原始数据转换为一些数值表达,以便算法理解。

基于数据集的特征可以分为两大类:

  • 固有的原始特征是直接从数据集获得的,没有额外的数据操作。
  • 派生特征通常是从特征工程中获得的,是从现有的数据属性中提取出来的特征。

举一个简单的例子:通过将当前日期减去订单日期,可以从包含『订单日期』的订单数据集中创建一个新的『订单履行日期』。另一方面,在特定的深度学习算法中,特征通常比较简单,因为算法本身会内部转化数据。这种方法需要的数据量会比较大,并以牺牲解释性为代价。然而,在图像处理或自然语言处理用例中,这样的折中方法往往是值得的。

特征工程也被称为特征构造,是从现有数据中构造新的特征从而训练机器学习模型的过程。这一步可能比实际上使用的模型更重要,因为一个机器学习算法只能从我们给定的数据中学习,所以构造一个和任务相关的特征是至关重要的。

通常,特征工程是一个冗长的人工过程,依赖于领域知识、直觉和数据操作。同时,特征工程意味着从现有的数据中构造额外特征,这些特征通常分布在多张相关的表中。因此,特征工程需要从数据中提取相关信息并将其存入单张表格中,然后被用来训练机器学习模型。这个过程可能是极其枯燥的,同时最终得到的特征将会受到人的主观性和时间的限制。

特征分析工程平台(简称:KXCY-AI-FE),旨在通过从数据集中自动构造候选特征,并从中选择最优特征用于训练来帮助科研人员。基于深度特征合成,叠加多个转换和聚合操作,这在特征工具的词库中被称为特征基元,以便通过分布在多张表内的数据来构造新的特征。同时,配套《特征分析工程与应用项目实战(KXCY-AI-LAB-FE)》课程,配合大量实践项目案例,使高校师生更为系统化的学习并掌握新一代人工智能时代下的特征工程技术。
项目案例包括:

  • 预测下一次购买产品
  • 预测剩余使用寿命
  • 预测面诊失约可能性
  • 预测贷款偿还
  • 预测正确答案
  • 预测奥运奖牌
  • 预测客户流失
  • 预测出租车出行时间
  • 预测精准扶贫对象
  • 预测恶意互联网流量