《异常检测》课程

异常检测(Anomaly Detection 或 Outlier Detection)指的是通过数据挖掘手段识别数据中的『异常点』,常见的使用案例包括风控领域(如识别信用卡诈骗),网络通信领域发现异常信息流,或机械加工领域识别未达标的产品等。从数据挖掘算法角度看,常见的算法可以被粗略归类为概率与极值分析(假设数据分布并找到超过中心特定范围的数据),线性模型(如 PCA 计算重构误差或者分析协方差矩阵的),有相似度模型(如ABOD,LOF、LOCI、LoOP 和 kNN 等),有决策树集成(Isolation Forest、Feature Bagging),有基于 SVM 的方法如 One-class SVM,也有基于神经网络的算法(用 auto-encoder 计算重构误差)等各种算法。

本课程将向学生介绍如何使用统计学和机器学习来检测数据中的异常。 作为数据科学和人工智能理论的基础部分,如何识别异常数据的研究和应用可应用于监督学习、数据分析、财务预测等许多行业。 了解这些方法背后的理论和直觉,是现代开发人员和研究人员的工具和知识库的重要组成部分。完成本课程后,学生将通过大量实践操作,掌握异常检测中使用的理论和方法;推导基于深度和基于邻近度的检测模型;使用从实时串流到高维抽象的多种数据类型;并使用 Python 汇集实现这些类型的模型。