数据科学管道与数据分析库:Pandas

PandasPython 生态系统中最流行的数据分析库,并作为核心组件被跨象乘云公司集成至:数据科学与大数据分析科研教学实践环境中。Pandas 能够完成许多任务,通常用于快速简单的数据操作、聚合和可视化,具体包括:

  • 读/写不同格式的数据
  • 选择数据的子集(教程1234
  • 跨行/列计算
  • 寻找并填写缺失的数据
  • 在数据的独立组中应用操作
  • 重塑数据成不同格式
  • 合并多个数据集
  • 先进的时序功能
  • 通过 matplotlibseaborn 进行可视化操作

尽管 Pandas 功能强大,但它并不为整个数据科学流程提供完整功能。Pandas 通常是被用在数据采集和存储以及数据建模和预测中间的工具,作用是数据挖掘和清理。下图显示的,便是完整的数据科学管道与流程,以及各种数据科学库所处的位置 —— 相关组件也都被集成部署在跨象乘云的数据科学与大数据分析科研教学实践环境中。

数据科学管道 - Data Science Pipeline
数据科学管道 – Data Science Pipeline

对于典型的数据科学家而言,Pandas 在数据管道传输过程中扮演着非常重要的角色。现在,Pandas 在 Stack Overflow 上的活动居 Python 数据科学库之首,占整个站点新问题提交总数的 1%。《Pandas Cookbook》的作者 Theodore Petrou 提供了几条如何学习 Pandas 的建议。包括:

按照 Theodore Petrou 推荐的顺序重读 Pandas 文档

在阅读上述部分的文档并完成大约 10 个 Kaggle kernel 之后,你应该可以无障碍地弄懂 Pandas 的机制,同时可以顺利地进行实际数据分析。