这是一份非常详实的备忘单,涉及具体内容包括:
- 神经网络基础知识
- 神经网络图谱
- 机器学习基础知识
- 著名 Python 库 Scikit-Learn
- Scikit-Learn 算法
- 机器学习算法选择指南
- TensorFlow
- Python 基础
- PySpark 基础
- Numpy 基础
- Bokeh
- Keras
- Pandas
- 使用 Pandas 进行Data Wrangling
- 使用 dplyr 和 tidyr 进行 Data Wrangling
- SciPi
- MatPlotLib
- 使用 ggplot 进行数据可视化
- Big-O

第一部分:神经网络

神经网络基础知识
人工神经网络(ANN),俗称神经网络,是一种基于生物神经网络结构和功能的计算模型。 它就像一个人工神经系统,用于接收,处理和传输计算机科学方面的信息。

基本上,神经网络中有 3 个不同的层:
- 输入层(所有输入都通过该层输入模型)
- 隐藏层(可以有多个隐藏层用于处理从输入层接收的输入)
- 输出层(处理后的数据在输出层可用)
神经网络图谱

图形数据可以与很多学习任务一起使用,在元素之间包含很多丰富的关联数据。例如,物理系统建模、预测蛋白质界面,以及疾病分类,都需要模型从图形输入中学习。图形推理模型还可用于学习非结构性数据,如文本和图像,以及对提取结构的推理
第二部分:机器学习

用 Emoji 解释机器学习

Scikit-Learn 基础
Scikit-learn 是由 Python 第三方提供的非常强大的机器学习库,它包含了从数据预处理到训练模型的各个方面,回归和聚类算法,包括支持向量机,是一种简单有效的数据挖掘和数据分析工具。在实战使用scikit-learn 中可以极大的节省代码时间和代码量。它基于 NumPy,SciPy 和 matplotlib 之上,采用 BSD许可证。

Scikit-Learn 算法
这张流程图非常清晰直观的给出了 Scikit-Learn 算法的使用指南。

针对 Azure Machine Learning Studios 的 Scikit-Learn 算法

第三部分:Python 数据科学

TensorFlow


PySpark RDD 基础
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,通过 Scala 语言实现,拥有 Hadoop MapReduce 所具有的优点,不同的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。PySpark 是 Spark 为 Python 开发者提供的 API。
NumPy基础
NumPy 是 Python 语言的一个扩展程序库。支持高端大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,前身 Numeric,主要用于数组计算。它实现了在 Python 中使用向量和数学矩阵、以及许多用 C 语言实现的底层函数,并且速度得到了极大提升。

Bokeh
Bokeh 是一个交互式可视化库,面向现代 Web 浏览器。目标是提供优雅、简洁的多功能图形构造,并通过非常大或流数据集的高性能交互来扩展此功能。Bokeh 可以实现快速轻松地创建交互式图表、仪表板和数据应用程序。

Keras
Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK , 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果,是做好研究的关键。

Pandas
pandas 是一个为 Python 编程语言编写的软件库,用于数据操作和分析,基于 NumPy,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas 提供了大量快速便捷地处理数据的函数和方法。

使用 Pandas 进行 Data Wrangling
使用 Pandas 进行 Data Wrangling

使用 ddyr 和 tidyr 进行 Data Wrangling
为什么使用 tidyr 和 dplyr 呢?因为虽然 R 中存在许多基本数据处理功能,但都有点复杂并且缺乏一致的编码,导致可读性很差的嵌套功能以及臃肿的代码。使用 ddyr 和 tidyr 可以获得:
- 更高效的代码
- 更容易记住的语法
- 更好的语法可读性

Scipy 线性代数
SciPy 是一个开源的 Python 算法库和数学工具包。 SciPy 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。 与其功能相类似的软件还有 MATLAB、GNU Octave 和 Scilab。

Matplotlib
Matplotlib 是 Python 编程语言及其数值数学扩展包 NumPy 的可视化操作界面。 它为利用通用的图形用户界面工具包,如 Tkinter, wxPython, Qt 或 GTK+ 向应用程序嵌入式绘图提供了应用程序接口(API)。

使用 ggplot2 进行数据可视化

Big-O
大 O 符号(英语:Big O notation),又稱為漸進符號,是用于描述函数渐近行为的数学符号。 更确切地说,它是用另一个(通常更简单的)函数来描述一个函数数量级的渐近上界。 … 阶)的大 O,最初是一个大写希腊字母 “Ο” (omicron),现今用的是大写拉丁字母 “O”。

PDF下载(或点击阅读原文链接):
https://cheatsheets.becominghumanai.com/