数据科学、神经网络、机器学习完全图解

这是一份非常详实的备忘单,涉及具体内容包括:

  1. 神经网络基础知识
  2. 神经网络图谱
  3. 机器学习基础知识
  4. 著名 Python 库 Scikit-Learn
  5. Scikit-Learn 算法
  6. 机器学习算法选择指南
  7. TensorFlow
  8. Python 基础
  9. PySpark 基础
  10. Numpy 基础
  11. Bokeh
  12. Keras
  13. Pandas
  14. 使用 Pandas 进行Data Wrangling
  15. 使用 dplyr 和 tidyr 进行 Data Wrangling
  16. SciPi
  17. MatPlotLib
  18. 使用 ggplot 进行数据可视化
  19. Big-O
神经网络 Cheat Sheet
神经网络 Cheat Sheet

第一部分:神经网络

神经网络基础知识
神经网络基础知识

神经网络基础知识

人工神经网络(ANN),俗称神经网络,是一种基于生物神经网络结构和功能的计算模型。 它就像一个人工神经系统,用于接收,处理和传输计算机科学方面的信息。

神经网络
神经网络

基本上,神经网络中有 3 个不同的层:

  • 输入层(所有输入都通过该层输入模型)
  • 隐藏层(可以有多个隐藏层用于处理从输入层接收的输入)
  • 输出层(处理后的数据在输出层可用)

神经网络图谱

神经网络图谱
神经网络图谱

图形数据可以与很多学习任务一起使用,在元素之间包含很多丰富的关联数据。例如,物理系统建模、预测蛋白质界面,以及疾病分类,都需要模型从图形输入中学习。图形推理模型还可用于学习非结构性数据,如文本和图像,以及对提取结构的推理

第二部分:机器学习

机器学习 Cheat Sheet
机器学习

用 Emoji 解释机器学习

用 Emoji 解释机器学习
用 Emoji 解释机器学习

Scikit-Learn 基础

Scikit-learn 是由 Python 第三方提供的非常强大的机器学习库,它包含了从数据预处理到训练模型的各个方面,回归和聚类算法,包括支持向量机,是一种简单有效的数据挖掘和数据分析工具。在实战使用scikit-learn 中可以极大的节省代码时间和代码量。它基于 NumPy,SciPy 和 matplotlib 之上,采用 BSD许可证。

Scikit-Learn 基础
Scikit-Learn 基础

Scikit-Learn 算法

这张流程图非常清晰直观的给出了 Scikit-Learn 算法的使用指南。

Scikit-Learn 算法
Scikit-Learn 算法

针对 Azure Machine Learning Studios 的 Scikit-Learn 算法

针对 Azure Machine Learning Studios 的 Scikit-Learn 算法
针对 Azure Machine Learning Studios 的 Scikit-Learn 算法

第三部分:Python 数据科学

Python
Python

TensorFlow

 

 

 

TensorFlow
Python 基础

 

Python 基础
Python 基础

PySpark RDD 基础

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,通过 Scala 语言实现,拥有 Hadoop MapReduce 所具有的优点,不同的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。PySpark 是 Spark  为 Python 开发者提供的  API。

NumPy基础

NumPy 是 Python 语言的一个扩展程序库。支持高端大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,前身 Numeric,主要用于数组计算。它实现了在 Python 中使用向量和数学矩阵、以及许多用 C 语言实现的底层函数,并且速度得到了极大提升。

NumPy基础
NumPy基础

Bokeh

Bokeh 是一个交互式可视化库,面向现代 Web 浏览器。目标是提供优雅、简洁的多功能图形构造,并通过非常大或流数据集的高性能交互来扩展此功能。Bokeh 可以实现快速轻松地创建交互式图表、仪表板和数据应用程序。

Bokeh
Bokeh

Keras

Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK , 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果,是做好研究的关键。

Keras
Keras

Pandas

pandas 是一个为 Python 编程语言编写的软件库,用于数据操作和分析,基于 NumPy,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas 提供了大量快速便捷地处理数据的函数和方法。

Pandas
Pandas

使用 Pandas 进行 Data Wrangling

使用 Pandas 进行 Data Wrangling

使用Pandas进行Data Wrangling
使用 Pandas进行 Data Wrangling

使用 ddyr 和 tidyr 进行 Data  Wrangling

为什么使用 tidyr 和 dplyr 呢?因为虽然 R 中存在许多基本数据处理功能,但都有点复杂并且缺乏一致的编码,导致可读性很差的嵌套功能以及臃肿的代码。使用 ddyr 和 tidyr 可以获得:

  • 更高效的代码
  • 更容易记住的语法
  • 更好的语法可读性
使用ddyr和tidyr进行Data Wrangling
使用 ddyr和 tidyr进行 Data Wrangling

Scipy 线性代数

SciPy 是一个开源的 Python 算法库和数学工具包。 SciPy 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。 与其功能相类似的软件还有 MATLAB、GNU Octave 和 Scilab。

Scipy线性代数
Scipy 线性代数

Matplotlib

Matplotlib 是 Python 编程语言及其数值数学扩展包 NumPy 的可视化操作界面。 它为利用通用的图形用户界面工具包,如 Tkinter, wxPython, Qt 或 GTK+ 向应用程序嵌入式绘图提供了应用程序接口(API)。

Matplotlib
Matplotlib

使用 ggplot2 进行数据可视化

使用ggplot2进行数据可视化
使用 ggplot2 进行数据可视化

Big-O

大 O 符号(英语:Big O notation),又稱為漸進符號,是用于描述函数渐近行为的数学符号。 更确切地说,它是用另一个(通常更简单的)函数来描述一个函数数量级的渐近上界。 … 阶)的大 O,最初是一个大写希腊字母 “Ο” (omicron),现今用的是大写拉丁字母 “O”。

Big-O
Big-O

PDF下载(或点击阅读原文链接):
https://cheatsheets.becominghumanai.com/

参考链接:
https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-science-pdf-f22dc900d2d7

 

 

 

 

 

 

埃森哲:大数据分析方法论

当前,越来越多的应用涉及到大数据,而这些大数据的属性,包括数量、速度、多样性等等都呈现出不断增长的复杂性,因此,大数据分析方法在这一领域也就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。全球最大的管理咨询公司「埃森哲」的此前发布了一份 PPT,讲述大数据分析方法,看看他们具体是如何进行的。

由于此报告发布已经有一段时间,里面所提及的各种数据分析工具未必是最好的选择。诸如:SAS / SPSS / MATLAB 均为严谨高效的数据统计商业应用型工具,好比数据库中的 ORACLE,然而, R 与 Python 显然更匹配基础科学人才培养目标。同时,数据科学与大数据在各细分领域并发性爆发,充分展现了开源生态圈协同开发模式的强大优势与趋势。同时标志着『半成品化』应用工具时代的到来。最后,R 与 Python 逐步成为贯穿数据科学与大数据,机器学习,深度学习,新一代人工智能,乃至区块链技术一脉相承的语言工具,纯数据以外,更多的对象被纳入统计范围内。

尽管如此,从全面解读数据分析方法论的角度而言,此份报告仍然不失为一份有价值的参考材料。

《埃森哲:大数据分析方法论》。下载

PDF 数据表格提取神器

Excalibur,从古希腊语翻译过来就是『神剑』,它现在也是一种用于从 PDF 中提取表格数据的 Web 界面,使用 Python 3 编写,由 Camelot(Python 库) 提供支持,可以让任何人轻松地从 PDF 文件中提取表格数据。需要注意的是,Excalibur 仅适用于基于文本的 PDF 文件,扫描文件不在此列。

可移植文件格式

PDF 文件定义了将字符放置在相对于页面左下角的 x,y 坐标的指令。通过将某些字符放在比其他字符更近的地方来模拟单词。空格是通过将单词放在相对较远的地方来模拟的。最后,通过放置在电子表格中显示的字词来模拟表格,格式没有表格结构的内部表示。

自动检测 PDF 中的表格数据

可移植文件格式不是为表格数据设计的。可悲的是,许多开放数据共享时都是 PDF 文件,但对其中的表格进行分析却是一件非常痛苦的事。简单的复制粘贴行不通,Excalibur 通过自动检测 PDF  中的表格并让你通过 Web 界面将它们保存为 CSV 和 Excel 文件,这使 PDF 表格提取变得非常简单。

可动态调整表格提取规则

虽然有很多广泛用于 PDF 表格提取的开源和闭源工具,但他们输出的表格良莠不齐。Excalibur 由 Camelot 提供支持,为用户提供附加设置以调整表格提取并获得最佳效果。相较而言,它的性能要好于其他开源工具和库。

数据完全可控且安全

你可以完全控制数据,因为所有文件存储和处理都在你自己的本地或远程计算机上进行。Excalibur 还可以配置 MySQL 和 Celery 系统,以并行和分布式方式执行表格提取任务。默认情况下,任务按顺序执行。

GitHub地址项目 GitHub 地址

Spark 2.4 重磅发布

Spark 2.4 重磅发布:优化深度学习框架集成,提供更灵活的流式接收器。Apache Spark 2.4.0 是 2.x 系列中的第五个版本。此版本增加了屏障执行模式,以便更好地与深度学习框架集成;引入 30 多个更高阶的内置函数,能够更轻松地处理复杂数据类型;优化 K8s 集成,同时提供 Scala 2.12 实验性支持。其他主要更新还包括内置 Avro 数据源、图像数据源,更加灵活的流式接收器,取消传输过程中 2GB 块大小的限制,Pandas UDF 改进。此外,此版本继续关注可用性、稳定性,并解决了大约 1,100 个 tickets。

23 个 Pandas 核心操作

Pandas 是基于 NumPy 构建的库,在数据处理方面可以把它理解为 NumPy 加强版,同时 Pandas 也是一项开源项目。它基于 Cython,因此读取与处理数据非常快,并且还能轻松处理浮点数据中的缺失数据(表示为 NaN)以及非浮点数据。在本文中,基本数据集操作主要介绍了 CSV 与 Excel 的读写方法,基本数据处理主要介绍了缺失值及特征抽取,最后的 DataFrame 操作则主要介绍了函数和排序等方法。

读取 CSV 格式的数据集

pd.DataFrame.from_csv(“csv_file”)

或者

pd.read_csv(“csv_file”)

读取 Excel 数据集

pd.read_excel("excel_file")

将 DataFrame 直接写入 CSV 文件

如下采用逗号作为分隔符,且不带索引:

df.to_csv("data.csv", sep=",", index=False)

基本的数据集特征信息

df.info()

基本的数据集统计信息

print(df.describe())

将 DataFrame 输出到一张表

print(tabulate(print_table, headers=headers))

当「print_table」是一个列表,其中列表元素还是新的列表,「headers」为表头字符串组成的列表。

列出所有列的名字

df.columns

删除缺失数据

df.dropna(axis=0, how='any')

返回一个 DataFrame,其中删除了包含任何 NaN 值的给定轴,选择 how=「all」会删除所有元素都是 NaN 的给定轴。

替换缺失数据

df.replace(to_replace=None, value=None)

使用 value 值代替 DataFrame 中的 to_replace 值,其中 value 和 to_replace 都需要我们赋予不同的值。

检查空值 NaN

pd.isnull(object)

检查缺失值,即数值数组中的 NaN 和目标数组中的 None/NaN。

删除特征

df.drop('feature_variable_name', axis=1)

axis 选择 0 表示行,选择表示列。

将目标类型转换为浮点型

pd.to_numeric(df["feature_name"], errors='coerce')

将目标类型转化为数值从而进一步执行计算,在这个案例中为字符串。

将 DataFrame 转换为 NumPy 数组

df.as_matrix()

取 DataFrame 的前面「n」行

df.head(n)

通过特征名取数据

df.loc[feature_name]

对 DataFrame 使用函数

该函数将令 DataFrame 中「height」行的所有值乘上 2:

df["height"].apply(*lambda* height: 2 * height)

或者:

def multiply(x):
return x * 2
df["height"].apply(multiply)

重命名行

下面代码会重命名 DataFrame 的第三行为「size」:

df.rename(columns = {df.columns[2]:'size'}, inplace=True)

取某一行的唯一实体

下面代码将取「name」行的唯一实体:

df["name"].unique()

访问子 DataFrame

以下代码将从 DataFrame 中抽取选定了的行「name」和「size」:

new_df = df[["name", "size"]]

总结数据信息

# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()

给数据排序

df.sort_values(ascending = False)

布尔型索引

以下代码将过滤名为「size」的行,并仅显示值等于 5 的行:

df[df["size"] == 5]

选定特定的值

以下代码将选定「size」列、第一行的值:

df.loc([0], ['size'])

企业数据科学成熟度模型评估之4

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。

数据科学如何轻松地部署产品,投入生产,以满足及时的业务目标?

数据科学期望惊人的见解和预测将改变业务并使企业达到新的绩效水平。然而,数据科学项目往往无法『升空』,导致企业的重大机会成本。数据科学家可以产生具有高精度的预测模型,然而如果这些模型没有有效地投入生产,即部署,则不能实现期望的收益。

在本次讨论中似乎相关的『部署』的更一般定义是 ——

将资源纳入有效行为的行动。

这种情况下的资源是指数据科学工作的产品,如机器学习模型,可视化,统计分析等。有效的行动是对提供商业利益的方式提供这些资源:交互式仪表板中提供的及时见解,影响哪些对客户,员工,资产等采取的行动的预测结果。

对于一般的数据科学,特别是机器学习,大多数部署机制在各个项目中是相同的。然而企业经常发现个别项目重新发明部署基础架构,需要恢复逻辑以及缺少严格的测试。利用提供部署管道的工具可以大大降低部署数据科学项目的开销和风险。

和以前一样,我们将讨论『部署』维度的 5 个成熟度等级中的每一个:

第1级:数据科学结果的范围有限,因此提供有限的商业价值。

在 1 级企业中,数据科学项目的结果通常采用幻灯片演示或文本报告中记录的见解形式呈现。数据分析,可视化甚至预测模型可以为人类决策提供指导,但这些结果必须在每个项目的基础上手动传达。

第 2 级:生产模型部署被视为有价值,但通常涉及为每个项目重新构建基础架构。

在2级企业中,可以在一线应用程序和系统中利用机器学习模型的认识得以自动实现。一些见解可以明确地编码到应用程序或仪表板逻辑中,但是,模型创建和部署之间的时间可以显着影响模型的准确性。当用于模型构建的数据模式与用于评分的当前数据不同时,会发生部署的延迟。此外,为了更容易地与现有应用程序或仪表板集成,手动编码(例如,用 C,Java 或甚至 SQL 中进行评分的预测模型系数)需要开发人员的大量时间,并且可能导致编码错误。只有严格的代码审查和测试才能揭示其中的错误。因此,企业会产生数据科学项目的成本,但却没有充分实现潜在的项目效益。

第 3 级:企业开始提供并利用简化的自动化模型部署工具,包括开源软件和环境。

随着更多的数据科学项目的开展,3 级企业意识到一次性部署方法浪费了宝贵的开发资源,导致部署延迟,降低了模型的有效性,并增加了项目风险。在当今支持互联网的世界中,数据模式(例如客户偏好)可以在一夜之间发生变化,要求企业更灵活地使用最新数据构建,测试和部署模型。第3级的企业开始利用提供所需基础架构的工具来支持简化和自动化的模型部署。

第 4 级:企业系统的异构性增加需要跨平台模型部署,并且越来越需要将模型合并到流数据应用程序中。

Level 4 企业结合了数据库,Hadoop,Spark 和其他用于管理数据和计算的平台。企业越来越需要在一个环境中生成的模型和脚本部署到另一个环境中。这增加了对能够导出模型以便在评分引擎库中使用的工具的需求,该评分引擎库可以轻松集成到应用程序中。4 级企业在开始使用涉及快速数据的数据科学结果时,寻求能够在实时或流分析情况下促进脚本和模型部署的工具。

第 5 级:企业已经实现了跨异构环境即时数据科学工作产品(重新)部署的好处。

5 级企业采用了一套标准工具来支持跨所有必要环境部署数据科学工作产品。在一个环境中创建的机器学习模型和脚本可以立即以最小的延迟进行部署和刷新(重新部署)。

数据科学成熟度模型(DSMM)系列的这一部分包含我们之前提到的所有维度和等级的汇总表。将数据科学作为核心竞争力的企业可能希望评估他们当前处于每个维度的哪个水平。在某些情况下,企业可能跨越多个级别。作为下一步,企业可以使用这种成熟度模型来确定他们每个维度中的所渴望实现的级别,当然我们也期待技术的创新能设计出新的级别 6。

下载:企业数据科学成熟度模型评估表

企业数据科学成熟度模型评估之3

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。

这些数据工具是否可以扩展和执行?数据探索,数据准备,建模,模型评分和部署?随着数据,数据科学项目和数据科学团队的发展,企业是否能够充分支持这些?术语『可扩展性』可以定义为 ——

系统,网络或流程处理越来越多的工作的能力,或者可以扩大以适应这种增长的潜力。

数据科学的可扩展性需要同时反映硬件和软件方面,以及人员和流程各个方面。这包括几个因素:数据量(行数,列数和总字节数),算法设计和实现(并行,分布式,内存高效),用于数据准备和模型构建和评分,硬件(RAM,CPU,GPU,存储),数据科学产品的生产率,数据科学参与者和项目的数量,以及工作流程的复杂性。

和以前一样,我们将讨论『可扩展性』维度的 5 个成熟度等级中的每一个:

第 1 级:数据量通常『很小』,受桌面端规模的硬件和工具限制,个人使用简单的工作流程进行分析。

1 级企业对可以适合单机内存处理的数据进行分析,通常在桌面端硬件上完成,并可能使用开源工具。在级别 1,数据量使得从平面文件加载数据或从数据库以编程方式加载数据不会引入有延迟的问题。同时就存储器消耗或利用多个 CPU 的能力而言的算法效率不是特别重要的问题。

第 2 级:数据科学项目具有更高的复杂性并可以利用更大的数据量。

在 2 级企业中,数据科学参与者正在开展更复杂的项目,同时需要更多的数据。由于数据移动,数据量的这种增加引入了越来越难以忍受的延迟问题,并且突出了低效的算法不充分利用硬件资源的困难。更频繁地生产更多数据科学工作产品的需求也对现有硬件资源提出更高的要求。2 级企业开始探索可扩展的工具,用于在数据驻留的地点进行直接处理,而不是依赖于数据移动,或者增强开源工具和软件包使用的工具。此时有的数据科学家采用数据采样来解决工具限制问题。

第 3 级:各个小组采用各种可扩展的数据科学工具,为数据科学家的使用提供更多的硬件资源。

3 级企业正在通过采用最大限度减少数据移动造成的延迟的工具,采用并行分布式算法实现以及提供利用开源工具的基础架构来解决其在第 2 级遇到的数据科学增长的难题。这些新工具使数据科学家能够在其分析中使用更多所需的数据,但是,整个企业中没有标准的工具套件,并且各种工具不能促进协作。此时可用的硬件资源(内部部署或云)的增加可以解决更大,更复杂的数据科学问题,从而为数据科学团队带来显着的生产力提升。

第 4 级:企业标准化可扩展数据科学工具的集成套件,并为开发和生产的数据科学项目提供足够的硬件能力。

通过探索和测试驱动各种数据科学工具,Level 4 企业标准化了一套可扩展的工具,使数据科学参与者能够实现全面的数据科学项目。特别是数据科学家拥有足够的硬件资源(内部部署或云端)。

第 5 级:数据科学家可以通过高度可扩展的算法和基础设施按需访问内部和云中的弹性计算资源。

5 级企业专注于为数据科学家提供更具弹性的计算资源。随着数据量的增加,数据科学项目受益于能够快速,轻松地增加/减少的计算资源,从而加快数据探索,数据准备,机器学习模型培训和数据评分 – 无论是针对单个模型还是涉及大规模的预测建模。弹性计算资源可以消除为最高峰值时的需求提供专用资源的需要。此时云端的解决方案可以提供更大的优势,并且满足法规或数据隐私要求。可扩展算法和基础架构与弹性计算资源的结合使企业能够在最小化成本的同时满足时间敏感的业务目标。

数据科学资产如何管理和控制?

资产,通常既是有形的,但有时也是无形的有价值的东西。

在本次讨论中,我们将数据科学工作产品视为资产,并可将『资产管理』定义为 ——

任何监控和维护实体或组织价值的系统。

正如我们在本系列文章前面介绍的那样,工作产品包括,如,原始数据和相应的转换,数据可视化,要求和设计规范,直接或在网络中编写为 R / Python / SQL /其他脚本的代码 – 基于 Notebook 的内容(例如,Zeppelin,Jupyter),预测模型,虚拟机/容器等等。在这种情况下,资产管理应涵盖整个资产生命周期 – 从创建到退休。在整个生命周期中,必须解决对资产存储/备份/恢复,基于元数据的搜索和检索,安全性(例如,基于特权的访问控制,可审计性),版本控制和沿袭的需求。具体到数据科学是对模型管理的需求,其包括例如模型生命周期,治理,可重复性,监视和报告。

和以前一样,我们将讨论『资产管理』维度的5个成熟度等级中的每一个:

第 1 级:由个人数据科学参与者拥有,组织和维护的分析工作产品。

一级企业的数据科学参与者基本上是围绕采取临时的资产管理方法。玩家负责维护他们的数据科学工作产品,通常是在他们的本地机器上,这些产品可能会也可能不会备份或安全控制。资产损失和无法重现结果并不罕见。在整个企业中,数据科学工作产品被『隐藏』在单个机器上,没有有效的搜索方式。

第 2 级:正在进行的初步工作,以提供数据科学工作产品的安全性,备份和恢复。

2 级企业认识到管理数据科学工作产品的必要性。这通常从基于组织的存储库开始,这些存储库为存储提供备份和恢复以减少资产损失,以及控制访问的安全性。

第 3 级:系统地解决数据科学工作产品治理问题。

3 级企业开始将数据科学工作产品视为重要的企业资产。因此,引入了工具和程序来集中管理资产的整个生命周期。随着企业利用机器学习模型扩展其数据科学工作,对模型管理的需求也获得了可见性。确定使用哪些数据和流程来生成数据科学工作产品的需求正在获得认可,正在采取措施明确地回答来解决其中的基本问题,例如,这个结果是基于什么?

第 4 级:数据科学工作产品治理在企业层面牢固建立,并增加对模型管理的支持。

4 级企业采用了数据科学工作产品治理的最佳实践。数据科学参与者以及整个企业通过能够轻松定位,执行,复制和增强项目内容来提高生产力。 类似『这个结果是如何产生的以及通过什么数据?』的问题很容易得到回答。

第 5 级:对所有数据科学工作产品进行系统管理,全面支持模型管理。

通过引入支持模型管理的工具和程序,5 级企业超越了 4 级企业。在部署数据科学项目时,会对其结果进行全面监控,并报告向企业提供的价值。这些结果被纳入项目形成闭环 – 确保数据科学项目继续根据当前和为相关数据和趋势提供价值。

企业内部使用哪些工具进行数据科学?数据科学家能否结合使用开源工具,高性能和可扩展的生产基础设施质量如何?

支持数据科学的工具非常广泛,从开源到专有,关系数据库到大数据平台,从简单的分析到复杂的机器学习。工具可以支持隔离的活动或高度协作,并通过完整的模型管理实现从小到大不同规模的预测建模。某些工具和算法实现对于小型甚至中等大小的数据表现良好,但在呈现较大数据量时会出现失败或变得不可用。为此需要特殊的并行分布式技术来实现,并利用多节点/处理器和机器集群。

很少有单一工具可以提供所有必需的功能 —— 通常采用商业和开源工具的混搭的方式。但是企业需要对所采用的工具提供必要的商业支持。因此非常有必要使用能对开源工具集成并能提供对开源工具进行数据和任务并行执行的支持能力以及易于部署的企业级工具。

和以前一样,我们将讨论『工具』维度的 5 个成熟度级别中的每一个:

第 1 级:不可扩展的工具,主要用于桌面计算机上的单一的隔离数据进行分析。

1 级数据科学参与者使用传统的桌面工具进行数据分析,严重依赖基于电子表格的工具以及用于分析和可视化的各种开源分析工具。

第 2 级:企业通过数据库管理系统管理数据,并依赖于广泛的开源库以及专门的商业工具。

2 级企业,更加重视数据管理,引入关系数据库管理软件工具。数据科学项目也受益于更广泛的开源软件包生态系统,用于高级数据探索,统计分析,可视化和预测分析/机器学习。但是在第 2 级,商业工具和开源工具之间几乎没有集成,性能和可扩展性是数据科学项目遇到的一个大问题。

第 3 级:企业寻求可扩展的工具来支持涉及大量数据的数据科学项目。

3 级企业的数据科学项目受到现有软件和环境的性能和可扩展性的阻碍。通过一系列可扩展的机器学习算法和技术,评估和获取商业化的和开源的工具,以补充开源技术并促进生产部署。数据科学公司可能会开始探索大数据平台,以解决大数据量,可扩展性和降低成本的需求。同时也会审核基于云的工具。随着数据科学项目越来越复杂,涉及更大的团队工作,支持协作的工具成为公认的需求。

第 4 级:企业将满足数据科学项目目标的工具套件标准化。

4 级企业了解数据科学参与者和项目的需求,以实现业务目标。提高生产力需要可扩展的工具,以支持协作并处理来自各种来源的数据。自动化和集成在提高生产力方面发挥着重要作用,因此避免范式转换和自动化数据探索,数据准备,机器学习以及图形和空间分析任务的工具特别有价值。已采用的工具可在多个平台上使用或运行,包括内部部署和云端。由于机器学习模型已成为数据科学项目的焦点,所采用的工具必须支持完整的模型管理。

第 5 级:企业定期评估最先进的算法,方法和工具,以提高解决方案的准确性,见解和性能,以及数据科学家的工作效率。

5 级企业优化其数据科学工具环境。了解了 4 级有效数据科学项目和数据科学播放器生产力所需的内容后,企业与工具提供商合作,进一步增强这些工具以实现业务目标。

下载:企业数据科学成熟度模型评估表

企业数据科学成熟度模型评估之2

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。

数据科学的企业方法论是什么呢?

最常被引用的『数据挖掘』方法 CRISP-DM 是数据科学的一个关键要素。但是,数据科学的广度和发展可能需要超越 CRISP-DM 引入的传统阶段:业务理解,数据理解,数据准备,建模,评估和部署。 实际上,结果反馈循环或扩展数据感知/访问阶段的价值可能是有用的。此外涉及数据科学项目参与者和工作产品的企业特定工作流程可能是提高生产率和衍生价值所必需的过程和方法。

和以前一样,我们将讨论『方法论』维度的 5 个成熟度等级中的每一个:

第 1 级:数据分析侧重于使用商业智能和数据可视化工具的临时方法。

对于一级企业,数据分析师和其他参与者通常不遵循既定的方法,而是依赖于他们的经验,技能和偏好。主要是通过仪表板,报告实现商业智能和数据可视化,并依赖于传统的方式进行演绎查询。

第 2 级:数据分析扩展到包括采用解决业务问题的机器学习和预测分析的方法,但仍使用临时方法。

与 1 级一样,2 级企业通常不遵循既定的方法,而是依赖于玩家的经验,技能和偏好。但是,二级企业补充了传统角色,例如数据分析师,他们为数据科学家提供商业智能和数据可视化,他们引入了更先进的数据科学技术,如机器学习和预测分析。随着数据科学家的引入,临时数据科学“方法论”得到了更多隐含的增强使用。

第 3 级:各个组织开始定义并定期应用数据科学方法。

3 级企业处于试验阶段,各个组织开始定义自己的方法实践或利用现有的方法实践。目标包括:在控制风险的同时提高数据科学项目的生产率,一致性和可重复性。但是数据科学项目可能会或可能不会有效地跟踪部署的模型结果的性能。

第 4 级:为数据科学项目建立的基础数据科学方法最佳实践。

4 级企业通过在整个企业中建立方法最佳实践,从 3 级的进展为基础。这些最佳实践源于组织实验或从现有方法中得来。通过建立最佳实践,企业可以提高数据科学项目的生产率,一致性和可重复性,同时降低失败的风险。

第 5 级:整个企业正式化数据科学方法的最佳实践。

在第 4 级建立了数据科学的最佳实践后,5 级企业正式确定了数据科学项目的其他关键方面,包括项目规划,需求收集/规范和设计,以及实施,部署和项目评估。

数据科学家可以轻松地了解哪些企业数据资源?一般而言,『意识』一词可以定义为 ——

拥有知识,知觉的状态或条件。

对于数据感知,我们可能会将此定义细化为:

了解企业中存在的数据并了解其内容。

企业通常在组织和部门之间拥有许多数据存储库。数据可以存在于数据库,平面文件,电子表格以及其他各种硬件,操作系统和文件系统中。此外,数据孤岛造成企业的一部分人完全不知道另一部分数据的存在,更不用说数据的含义了。

跨企业的数据感知使数据科学参与者,尤其是数据科学家,能够从元数据的角度浏览和理解数据。这样的元数据可以包括例如表和各列的文本描述,关键摘要统计,数据质量度量等。数据意识对于提高生产力至关重要,同时也是对数据资产进行清点并使企业转向『单一版本的事实』起到至关重要的作用。

和以前一样,我们将讨论『数据意识』维度的 5 个 成熟度等级中的每一个:

第 1 级:数据用户没有系统的方法来了解企业中可用的数据资产。

在理解整个企业中可能存在的数据资源时,1 级企业通常处于黑暗中。数据可以存储在员工计算机上的电子表格或平面文件中,也可以存储在部门或特定于应用程序的数据库中。没有数据格局的地图可以帮助查找感兴趣的数据,而且,企业还没有意识到需要这样做。

第 2 级:数据分析师和数据科学家通过『关键人物』寻求其他数据源。

2 级企业已『唤醒』了寻找正确数据的需求和好处。随着数据分析师和数据科学家采用更具分析意义的项目,数据搜索将在个人层面上进行 – 单独联系数据所有者或企业内部的其他人,以了解存在哪些数据。当然此时试图了解存在哪些数据,如何解释数据及其质量,会浪费大量时间。

第 3 级:对现有企业数据资源进行目录化,并评估其质量和效用,以解决业务问题。

3 级企业认为有必要让数据科学参与者更容易找到数据,并对解决业务问题的质量更有信心。特殊的元数据目录开始出现,这使得更容易理解可用的数据,但是,这些目录是非标准的,不是集成的,并且分散在整个企业中。

第 4 级:Enterprise 引入了元数据管理工具。

4 级企业通过引入元数据管理工具构建了第 3 级的进展,数据科学家和其他人可以发现可用于解决关键业务问题的数据资源。由于企业刚刚开始认真对待元数据,企业内的不同部门或组织可能会使用不同的工具。虽然数据科学家有所改进,但各种工具的元数据模型并未集成,因此可能需要咨询多种工具来完成。

第 5 级:企业标准化元数据管理工具,并将其用于所有数据资产制度化。

5 级企业完全接受了集成元数据的价值,并通过有效的工具促进了元数据的维护和组织。所有数据资产都通过完整的元数据描述进行质量和实用性策划,以实现整个企业的高效数据识别和发现。数据科学家的生产力和项目质量随着他们现在可以轻松找到可用的企业数据而增加。

数据分析师和数据科学家如何请求和访问数据?如何控制,管理和监控数据的访问?当我们考虑『数据访问』时,其中的定义指的是 ——

与存储,检索或处理数据库或其他存储库中的数据相关的软件和活动

通常与授权相关联 ,包括允许访问的内容 ,审计谁,何时,何地访问过什么。 有时候数据访问可以在很少或完全没有控制的情况发生,比如当访问某人没有加密的 U 盘时。或者通过安全数据库认证和计算机网络认证来进行严格的访问控制。 数据访问不仅考虑到用户方,还考虑了管理员有效管理数据访问生命周期的能力 – 从初始请求到撤销权限和使用后数据清理。

和以前一样,我们将讨论『数据访问』维度的 5 个成熟度等级中的每一个:

级别 1:数据分析师通常通过从 IT 或其他来源直接获得的平面文件来访问数据。

一级企业的数据科学公司使用历史上被称为『sneakernet』的东西。如果您需要数据,直接找到数据所有者,通过 U 盘或移动硬盘,然后将其加载到本地计算机上。当然,有时候这已经变成向数据所有者发送电子邮件请求,并通过电子邮件获取所请求的数据。以这种方式提供对数据的访问显然是不安全的。此外,在第一次尝试时不太可能获得『正确』的数据,因此数据所有者可能需要多次迭代操作。这会导致延迟,甚至使这些数据所有者非常烦恼。

第 2 级:通过直接程序数据库访问提供数据访问。

在二级企业中,sneakernet 被认为是不安全和低效的。此外,由于许多企业数据存储在数据库中,因此更容易启用授权和编程访问。通过方便的 API(ODBC,R 和 Python 包等)直接访问数据库,可以为数据科学参与者提供更多数据,从而缩短数据请求周期。但是,除了数据存储库/环境本身可能的任何处理(例如,关系数据库的 SQL)之外的任何处理仍然需要将数据提取到客户端机器,这可能具有安全隐患。

第 3 级:数据科学家已经对大容量数据进行了身份验证,可编程访问,但数据库管理员很难管理数据访问生命周期。

3 级企业正在经历数据访问增长的痛苦。数据科学家现在可以访问大量数据,并希望在他们的工作中使用更多数据。数据库管理员充斥着对广泛(多模式)和窄(单个表)数据访问的请求。确保个人获得适当的批准以访问他们所需的数据并可能实施数据屏蔽导致数据访问请求积压。3 级企业也开始用新的“大数据”存储库补充传统的结构化数据库数据,例如 HDFS,NoSQL 等。这些数据量更大的数据包括从社交媒体数据到传感器/图像/文本/语音的任何内容数据。

第 4 级:使用识别管理工具更严格地控制和管理数据访问。

虽然某些行业的企业(例如财务部门)将在不同程度上解决访问控制问题,但在更广泛地解决数据访问问题时,4 级企业了解用户身份的端到端生命周期管理的重要性,并开始引入工具加强安全性并酌情简化合规性。 4 级企业的目标是使数据科学参与者更容易请求和接收数据,同时还使管理员更容易管理,尤其是在引入更多大数据存储平台时。企业范围的自助服务访问请求 Web 应用程序可用于促进请求和授予数据访问。理想情况下,这将与用于数据感知的元数据管理工具集成。

第 5 级:数据访问沿袭跟踪可实现明确的数据推导和来源识别。

5 级企业已经对身份管理和审计进行了标准化,以支持安全的数据访问,现在关注的问题是『产生此结果的数据的来源是什么?』即使在利用企业数据仓库的企业中,数据仍可以复制到其他数据库,或利用各种网关提供对远程数据的透明访问。 5 级企业可以跟踪数据科学工作产品的衍生 – 它们的血统 – 与实际数据源的验证。

下载:企业数据科学成熟度模型评估表

企业数据科学成熟度模型评估之1

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践 —— 

企业数据科学『成熟度模型』

能帮助每个企业了解其当前和未来目标的状态。已经将数据科学作为核心竞争力的企业,以及那些刚入门的企业,往往会寻求提高数据科学这种能力的路线图。 数据科学成熟度模型是评估企业和指导数据科学必杀技的一种方式。

作为一种评估工具,该数据科学成熟度模型提供了一组与数据科学相关的维度,每个维度中有 5 个成熟度等级 – 1 级是最不成熟的,5 级是最成熟的。 以下是我对重要成熟度模型维度的看法,目标是为您提供评估工具和潜在的路线图:

  • 战略 – 企业的数据科学业务战略是什么?
  • 角色 – 企业中定义和开发了哪些工作角色来支持数据科学活动?
  • 协作 – 数据科学家如何与企业中的其他人(例如业务分析师,应用程序和分析系统开发人员)协作,以发展和交付数据科学工作产品?
  • 方法论 – 数据科学的企业方法是什么?
  • 数据意识 – 数据科学家可以轻松了解企业数据资源吗?
  • 数据访问 – 数据分析师和数据科学家如何请求和访问数据?您又是如何控制,管理和监控数据访问?
  • 可伸缩性 – 这些工具是否可以扩展和执行数据探索,数据准备,数据建模,模型评分和部署?
  • 资产管理 – 如何管理和控制数据科学资产?
  • 工具 – 企业内部使用哪些工具来实现数据科学目标?数据科学家能否利用开源工具与高性能和可扩展的云基础架构相结合?
  • 部署 – 数据科学如何轻松和快速地将产品投入生产以满足及时的业务目标?

成熟度模型中,第一个维度是『战略』:什么是数据科学的企业业务战略呢?战略可以定义为:

在不确定条件下实现一个或多个业务目标的高级计划。

在数据科学方面,目标可能包括做出更好的业务决策,创造新的发现,改善客户获取/保留/满意度,降低成本,优化流程等。根据可用数据的数量和质量以及数据的使用方式,企业面临的不确定程度可以显著降低或加剧。接下来,我们将讨论数据科学成熟度模型『战略』维度的 5 个级别:

第 1 级:企业没有应用数据科学的管理策略。

对于 1 级的企业来说,对数据科学的世界可能并不熟悉,但仍然有一定的数据。数据分析可能是企业日常活动的一部分,但没有总体管理策略或认识到数据是公司的资产。企业已经定义了目标,但数据支持这些目标的程度非常有限。

第 2 级:企业正在探索数据科学作为核心竞争力的价值。

2 级企业实现了数据的潜在价值,并利用该数据获得更大的业务优势。随着机器学习,人工智能和高级分析的所有宣传和实质落地,企业中的商业领袖正在研究科学数据可以提供的价值,并积极进行概念验证 – 认真探索数据科学作为核心业务能力。

第 3 级:企业将数据科学视为竞争优势的核心竞争力。

在完成概念验证后,3 级企业已致力于将数据科学作为核心竞争力及其带来的好处。正在进行系统性的努力,以便在该成熟度模型的其他方面增强数据科学能力。

第 4 级:企业采用数据驱动的决策方法。

一旦企业建立了数据科学的能力,4 级企业就有信心接受使用数据驱动的决策 – 用测量结果和预测分析/机器学习来支持或替代原本罗霍的业务本能。随着数据和技能的提升,业务领导者在做出关键业务决策时更有信心信任数据科学的结果。

第 5 级:数据被视为重要的公司资产 – 数据资本。

关于数据科学的最高级别的策略是对数据提供它应得的『崇敬』 – 将其视为有价值的公司资产 – 一种资本的形式存在。在第 5 级,企业分配足够的资源来开展数据科学项目,这些项目由适当的管理,维护,评估,安全和数据资产的增长以及人力资源支持,以系统地实现战略目标的落地。

定义在企业中支持数据科学活动的『角色』

角色可以被定义为:

一组在社会情境中由人们概念化的相互关联的行为,权利,义务,信仰和规范。

与大多数新业务领域一样,企业内的数据科学可以从添加新角色中获得受益。遵循『策略』维度,我们现在讨论『角色』维度的 5 个成熟度等级:

第 1 级:传统数据分析师使用推论技术探索和汇总数据。

1 级企业可能有专门负责数据分析的人员 – 数据分析员 – 并利用数据库管理员(DBA)或业务分析师的技能来提供商业智能。他们可能使用各种工具来支持相关的工作,例如,电子表格分析,数据可视化,仪表板,数据库查询语言等。处于这些角色的人通常使用演绎推理,因为他们通过制定特定的查询来回答特定的问题。

第 2 级:引入“数据科学家”角色和相应的技能组合,开始利用先进的归纳技术。

2 级企业认识到需要更复杂的分析,以及在数据科学方面受过培训的人。 这些数据科学家是目前备受推崇的人员,可以为企业带来更大的价值。数据科学家现在更多是大学硕士和博士学位的人才,甚至被认为是独角兽。即便如此,数据科学家可能具有不同的优势,包括对数据的准备/争论,编写代码,使用机器学习算法,使用有效的可视化将分析结果传达给技术和非技术受众。因此,给定的数据科学项目可能需要具有互补相关技能的数据科学家团队。2 级企业现在可以更自信地探索,开发和部署基于机器学习,人工智能,数据挖掘,预测分析和高级分析的解决方案。当然具体取决于使用哪些手段最能引起企业的共鸣。在第2级,数据科学家通常根据需要添加到各个部门或组织。

第 3 级:引入首席数据官(CDO)角色,以帮助管理作为公司资产的数据。

虽然不一定是纯粹的数据科学角色,但首席数据官角色对于以数据科学为重点的企业来说,即使不是关键,也是非常有益的。 CDO 负责企业范围内的数据资产治理和使用。随着在第 3 级引入这一角色,不仅数据科学被企业认真对待,而且数据科学项目的关键输入『数据』也是如此。

第 4 级:数据科学家职业道路在整个企业中编纂和标准化。

对于数据科学家在职位描述,技能和培训方面的角色,4 级企业努力使整个企业更加统一。在一些企业中,数据科学活动和/或数据科学家可以在共同或矩阵管理结构下组织在一起。

第 5 级:首席数据科学官(CDSO)角色介绍。

正如首席数据官角色有利于企业更认真地对待数据一样,5 级企业也认识到需要首席数据科学官。在此角色中,CDSO 负责监督,协调,评估和推荐数据科学项目以及帮助实现企业业务目标所需的工具和基础架构。

数据科学家如何和企业中的其他人相互协作?例如,业务分析师,应用程序和仪表板开发人员,来发展和交付数据科学工作产品呢?

数据科学项目通常涉及协作,我们将协作定义为:

两个或更多人或组织共同努力实现同一个目标。

对企业产生积极影响的成功数据科学项目通常需要多个人的参与,例如:数据科学家,数据/业务分析师,业务负责人,业务领域专家,应用程序/仪表板开发人员,数据库管理员和信息技术(IT)管理员。协作可以是非正式的或正式的,但是在更好的情况下,我们寻求支持,鼓励,监控和指导参与者之间更好的协作。

第 1 级:数据分析师经常在孤岛中工作,孤立地执行工作并在本地环境中存储数据和结果。

1 级企业经常遭受『孤岛效应』,企业不同部门的数据分析师孤立地工作,只关注他们可以访问的数据,回答他们部门或组织的问题。即使基本问题相同,在一个领域产生的结果可能与另一个领域的结果不一致。这些差异可能是由于使用不同数据或相同数据的不同版本,或采用不同的方法来达到给定结果。这些差异可以带来有趣的跨组织或企业范围的争论会议。

第 2 级:IT 和业务线组织之间存在更大的协作。

2 级企业寻求传统数据保管员(信息技术)与各种业务部门之间的更大合作。数据和结果的共享可能仍然是临时的,但更大的协作有助于识别数据以解决重要的业务问题并在组织或企业内传达结果。

第 3 级:认识到需要在数据科学项目的各个参与者之间加强合作。

随着数据科学家的引入以及更多地使用数据来解决业务问题的愿望,3 级企业认为需要在参与或受数据科学项目影响的各个参与者之间进行更多的协作。其中包括数据科学家,业务分析师,业务负责人和应用程序/仪表板开发人员等。协作采用数据科学工作产品的共享,修改和传递的形式。工作产品包括,例如,原始数据和转换,数据可视化图和图表,要求和设计规范,直接或基于网络的笔记本(例如,Zeppelin,Jupyter)编写为R / Python / SQL /其他脚本的代码和预测模型。可以使用具有版本控制的传统工具(例如源代码或对象存储库)等等。

第 4 级:广泛使用引入的工具,以便共享,修改,跟踪和传递数据科学工作产品。

4 级企业以 3 级的进展为基础,推出专门用于加强数据科学项目参与者之间协作的工具。这包括支持共享和修改工作产品,以及跟踪更改和工作流程。能够以无缝和受控的方式在定义的工作流程内交付工作产品是其中的关键。有时候企业内的不同组织可能会尝试各种工具,这些工具通常无法互操作。

第 5 级:在整个企业中引入标准化工具,以实现无缝协作。

虽然 4 级企业在加强协作方面取得了重大进展,但 5 级企业对工具进行了标准化,以促进数据科学项目参与者之间的跨企业协作。

下载:企业数据科学成熟度模型评估表

20G 绝地求生比赛数据集分析

项目主要分析绝地求生 72 万场比赛的数据,并结合数据给出吃鸡攻略,用数据吃鸡!

数据集说明

  • 数据来自 Kaggle
  • 数据主要分成两部分,一部分是玩家比赛的统计数据,在 aggregate.zip,一部分是玩家被击杀的数据,在 deaths.zip
  • 本次分析选取其中的两个数据集进行分析

运行环境:

  • python 3.6

需要安装的包

  • pandas、numpy、scipy
  • matplotlib、seaborn、boke

GitHub地址项目 GitHub 地址

Python 知识卡片:Bokeh

继续之前的:

对于 Bokeh,应该与其他 Python 可视化库(如 Matplotlib 或 Seaborn)区别开来,因为它是一个交互式可视化库,非常适合希望快速轻松地创建交互式图表,仪表板和数据应用程序的任何人。Bokeh 也因在现代 Web 浏览器中实现大型数据集的高性能视觉呈现而闻名。

对于数据科学家来说,Bokeh 是快速轻松构建统计图表的理想工具。但也有其他优点,例如各种输出选项以及可将应用程序嵌入可视化的事实。我们不要忘记,各种各样的可视化定制选项使得这个 Python 库成为您数据科学工具箱不可或缺的工具。

现在,DataCamp 为那些已经参加课程并且仍然需要方便的单页参考或需要额外推动才能开始的人创建了知识卡片。简而言之,你会发现这张备忘单不仅向你展示了你可以制作美丽情节的五个步骤,还将向你介绍统计图表的基础知识。这款 Bokeh 备忘单很快就会让您熟悉如何准备数据,创建新图,使用自定义可视化为数据添加渲染器,输出图并保存或显示。而基本统计图表的创建将不再为您保留任何秘密。借助 Bokeh 提升您的Python数据可视化效果!Python 交互式数据可视化库 Bokeh 知识卡片 PDF 下载。

Python 知识卡片:数据导入

继续之前的:

在做任何数据清理,争论,可视化 … 之前,您需要知道如何将数据导入 Python。有很多方法可以将数据导入 Python,具体取决于您正在处理的文件。然而,你最经常使用 PandasNumPy 库:熊猫库是数据科学家进行数据操作和分析的首选工具之一,旁边是用于数据可视化的 matplotlib 和 NumPy,它是基础库 Python 中的科学计算 Pandas 的建立。在 Python 导入表中导入数据时,您会发现一些 NumPy 和 Pandas 函数以及 Python 编程语言中构建的函数,这些函数将帮助您快速获取 Python 中的数据!Python 数据导入知识卡片 PDF 下载。

Python 知识卡片:Scikit-Learn

继续之前的:

大多数使用 Python 学习数据科学的科研工作人员与学生,肯定会听说 scikit-learn,这是一个开源的Python 库,它通过统一的界面实现了各种机器学习,预处理,交叉验证和可视化算法。如果你对这个领域还很陌生,你应该意识到机器学习以及 Python 库是属于每个有抱负的数据科学家必须知道的。

此前,跨象乘云™ 曾经介绍了完整的 scikit-learn 算法工程导图,这次 DataCamp 为您已经开始学习 Python 包的人创建了 scikit-learn 知识卡片,但仍需要一个方便的参考表。或者,如果您仍然不了解 scikit-learn 的 工作原理,这本机器学习知识卡片可能会派上用场,以便快速了解您需要知道的基本入门知识。无论哪种方式,当您解决机器学习问题时,我们确信您会发现它很有用!这个 scikit-learn 知识卡片将向您介绍您需要经过的基本步骤,以成功实现机器学习算法:您将看到如何加载数据,如何对其进行预处理,如何创建自己的模型您可以调整数据并预测目标标签,如何验证模型以及如何进一步调整以提高其性能。Python scikit-learn 库知识卡片 PDF 下载。

Python 知识卡片:Matplotlib

继续之前的:

使用数据进行数据可视化和讲故事是每个数据科学家需要将从分析中获得的深刻见解有效传达给任何观众的基本技能。对于大多数初学者来说,他们用来接触数据可视化和讲故事的第一个包本来就是 Matplotlib:它是一个 Python 2D 绘图库,可以让用户制作出版质量的图。但是,更令人信服的是,其他软件包(例如 Pandas )打算随着时间的推移与 Matplotlib 进行更多的绘图集成。然而,可能会减慢初学者的事实是,这个软件包相当广泛。你可以用它做很多事情,当你学习如何使用 Matplotlib 时,可能很难保持一个结构。DataCamp 为那些可能已经知道如何使用这个软件包来创建优秀的 Python 图表的人创建了一个 Matplotlib 知识卡片,但是仍然希望保持一页参考的方便。当然,对于那些不知道如何使用 Matplotlib 的人来说,这可能需要额外的推动才能确信,并最终开始使用 Python 进行数据可视化。Python Matplotlib 库小抄表 PDF 下载。

Python 知识卡片:NumPy

继续之前的:

作为数据科学的基本包之一,NumPy 是你必须能够使用并确认你是否需要使用 Python 进行数据科学工程实践的软件包之一。它提供了 Python 列表的一个很好的选择,因为 NumPy 数组更紧凑,允许更快地读取和写入项目,并且更方便,更高效。此外,NumPy 也是其他重要软件包的基础,用于数据操作和机器学习,您可能已经知道,即 PandasScikit-LearnSciPy

  • Pandas 数据操作库建立在 NumPy 上,但它不是使用数组,而是使用另外两个基本的数据结构:Series和 DataFrame;
  • SciPy 构建于 Numpy 之上,提供大量可在 NumPy 阵列上运行的函数;
  • 机器学习库:Scikit-Learn 不仅可以构建 NumPy,还可以构建 SciPy 和 Matplotlib。

你会发现,NumPy 这个 Python 库是一个必须知道的事情:如果你知道如何使用它,你还将更好地理解你将毫无疑问使用的其他 Python 数据科学工具。这张由 Datacamp 制作的小抄表覆盖了 NumPy 包的基础知识,Python NumPy 库小抄表 PDF 下载