Pandas 是 Python 生态系统中最流行的数据分析库,并作为核心组件被跨象乘云公司集成至:数据科学与大数据分析科研教学实践环境中。Pandas 能够完成许多任务,通常用于快速简单的数据操作、聚合和可视化,具体包括:
尽管 Pandas 功能强大,但它并不为整个数据科学流程提供完整功能。Pandas 通常是被用在数据采集和存储以及数据建模和预测中间的工具,作用是数据挖掘和清理。下图显示的,便是完整的数据科学管道与流程,以及各种数据科学库所处的位置 —— 相关组件也都被集成部署在跨象乘云的数据科学与大数据分析科研教学实践环境中。

对于典型的数据科学家而言,Pandas 在数据管道传输过程中扮演着非常重要的角色。现在,Pandas 在 Stack Overflow 上的活动居 Python 数据科学库之首,占整个站点新问题提交总数的 1%。《Pandas Cookbook》的作者 Theodore Petrou 提供了几条如何学习 Pandas 的建议。包括:
- 阅读 Pandas 官方文档
- 使用 Jupyter notebook 进行练习
- 参考 Kaggle 内核 —— 将数据集放在 Python 或 R 语言处理的 Jupyter notebook
- 学习探索性数据分析
- 获取更多的 Pandas 技巧
- 利用高质量的政府开放数据集进行练习,如:纽约;休斯顿;丹佛
按照 Theodore Petrou 推荐的顺序重读 Pandas 文档
- 处理丢失的数据
- 分组:split-apply-combine 模式
- 重塑和数据交叉表
- 数据合并和连接
- 输入输出工具(Text,CSV,HDF5 …)
- 文本数据分析
- 创建数据可视化
- 时间序列/日期功能
- 时间差
- 分类数据
- 计算工具
- 多重索引/高级索引
在阅读上述部分的文档并完成大约 10 个 Kaggle kernel 之后,你应该可以无障碍地弄懂 Pandas 的机制,同时可以顺利地进行实际数据分析。