Python数据科学核心库

数据科学解决方案公司 ActiveWizards,根据自身应用开发经验,总结了数据科学家和工程师 2017 年最常使用的 Python 库,以下是数据科学核心库部分:

NumPy

当使用 Python 开始处理科研任务时,不可避免地需要求助 Python 的 SciPy 堆栈,它是专门为 Python 中的科学计算而设计的软件集合。这个堆栈相当庞大,其中有十几个库,所以我们需要聚焦在最重要的核心包上。

NumPy(代表 Numerical Python)是构建科学计算堆栈的最基础的包。它为 Python 中的 N 维数组和矩阵的操作提供了大量有用的功能。该库还提供了 NumPy 数组类型的数学运算向量化,可以提升性能,从而加快执行速度。

SciPy

SciPy 是一个工程和科学软件库。除此以外,你还要了解 SciPy 堆栈和 SciPy 库之间的区别。SciPy 包含线性代数、优化、集成和统计的模块。SciPy 库的主要功能建立在 NumPy 的基础之上,因此它的数组大量使用了 NumPy。它通过其特定的子模块提供高效的数值例程操作,比如数值积分、优化和许多其他例程。SciPy 的所有子模块中的函数都有详细的文档,这也是一个优势。

Pandas

Pandas 是一个 Python 包,旨在通过「标记(Labeled)」和「关系(Relational)」数据进行工作,简单直观。Pandas 是 Data Wrangling 的完美工具。它设计用于快速简单的数据操作、聚合和可视化。

如果你是正在学习 Python 的学生或科研工作者,将能帮助你更好地找到学习的重心及科研方向。同时,由于所有的 python 库都是开源的,根据过去6周,三大Python核心库GitHub下载请求统计,我们能进一步了解每个 Python 库流行度的指标。