Pandas 中文官方教程

此前,跨象乘云 发布了《Python 知识卡片:Pandas》。Pandas 是一个强大的分析结构化数据的工具集;它的使用基础是 NumPy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。学习 Pandas 最好的方法就是看 Pandas 官方教程,日前,国内学习小组发布了 Pandas 官方教程的中文版,包括:《十分钟搞定 pandas》,《Pandas 秘籍》,《学习 Pandas》。

Pandas 中文官方教程》PDF 下载。

NumPy 中文官方教程

此前,跨象乘云 发布了《NumPy 教程:基础知识》与《Python 知识卡片:NumPy》两份教程。近日,NumPy 官方正式推出了 NumPy 中文版网站,涵盖 NumPy 的一切。在 Github 上一度蝉联最流行的机器学习和数据科学包 NumPy,已经有了非常之系统的中文文档。现在,如果有什么和 NumPy 的问题,只需要浏览这份官方中文文档就足够了。它足够的系统、全面且亲民。NumPy 是使用 Python 进行科学计算的基础软件包,是 Python 生态系统中数据分析、机器学习、科学计算的主力军,极大简化了向量与矩阵的操作处理。除了计算外,它还包括了:

  • 功能强大的 N 维数组对象。
  • 精密广播功能函数。
  • 集成 C/C+和 Fortran 代码的工具。
  • 强大的线性代数、傅立叶变换和随机数功能

此次中文文档还强调了它两大特性:Ndarray 以及切片和索引,这两部分所涉及的功能在日常操作中是十分常见的。

  • Ndarray:一系列同类型数据的集合,以 0 下标为开始进行集合中元素的索引。ndarray 对象是用于存放同类型元素的多维数组。ndarray 中的每个元素在内存中都有相同存储大小的区域。
  • 切片和索引:ndarray 对象的内容可以通过索引或切片来访问和修改,与 Python 中 list 的切片操作一样。ndarray 数组可以基于 0 – n 的下标进行索引,切片对象可以通过内置的 slice 函数,并设置 start, stop 及 step 参数进行,从原数组中切割出一个新数组。

这个开源的官方中文版教程可以说是非常全面了。它从最基本的理解 NumPy 开始,教程层层推进,直到让用户掌握进阶的使用方法。

从内容来看,中文版不仅仅是官方英文版本的翻译,还额外增加了「文章」这一栏目。该栏目提供了对 NumPy 背后的矩阵运算原理的详细解释,使得使用者「知其然,也知其所以然」。这是英文版教程中没有的。

以下为这一部分的目录,从这里可以看到,这部分内容主要介绍 NumPy 的基本理论,以及涉及到其应用的理论部分,如数据分析、神经网络实现,以及在其他代码库中的接口等。

基础篇

  • 理解 NumPy
  • NumPy 简单入门教程
  • Python NumPy 教程
  • 创建 NumPy 数组的不同方式
  • NumPy 中的矩阵和向量

进阶篇

  • NumPy 数据分析练习
  • NumPy 神经网络
  • 使用 NumPy 进行数组编程
  • NumPy 实现 K 均值聚类算法
  • NumPy 实现 DNC、RNN 和 LSTM 神经网络算法

深度学习相关

  • OpenCV 中的图像的基本操作
  • MinPy:MXNet 后端的 NumPy 接口

《工业大数据分析指南》2019 版

2019 年 2 月,由工业和信息化部指导,中国信息通信研究院、工业互联网产业联盟、中国通信学会联合主办的 2019 工业互联网峰会在北京国家会议中心举行。在 22 日的主论坛上,工业互联网产业联盟发布了《工业大数据分析指南》白皮书,清华大学大数据系统软件国家工程实验室总工程师王晨对白皮书进行了解读。

Apache Flink 1.10.0 发布

Apache Flink 社区迎来了激动人心的两位数位版本号,Flink 1.10.0 正式宣告发布!作为 Flink 社区迄今为止规模最大的一次版本升级,Flink 1.10 容纳了超过 200 位贡献者对超过 1,200 个 issue 的开发实现,包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化。Flink 1.10 同时还标志着对 Blink 的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理能力。

GitHub地址项目 GitHub 地址

《Python 数据分析》课程

Python是一种面向对象、直译式计算机程序设计语言,由 Guido van Rossum 于 1989 年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python 又被称之为胶水语言,是目前『云计算』 Openstack 的标准开发语言。同时,Python 拥有非常丰富的库,使其在数据分析领域也有广泛的应用。本课程涵括 Python 在大数据分析领域中的五大核心应用:

  1. 数据统计;(NumPy/Pandas 库)
  2. 数据采集;(Scrapy Web 爬虫采集)
  3. 数据处理;(清理、转换、合并、重塑)
  4. 数据分析;(数据聚合与时间序列)
  5. 数据可视化;(Matplotlib 库)

同时,配套数据科学与大数据分析科研教学实践环境,为高等院校数据科学与大数据技术专业、大数据技术应用专业学生提供完整的数据科学与大数据分析生态环境。为高等院校数据科学与大数据技术方向科研实验室建设提供完善的支撑。

The Car Connection 汽车数据集

关于汽车的项目很多,比如拍照识车、汽车比价等等,尽管这些项目本身难度不大,但是往往受制于数据集的质量,模型的效果不能很好的发挥。Nicolas Gervais 近日发布了一个关于汽车的数据集,数据相当全质量也相当高,为面向汽车工程类的大数据分析机器学习自动驾驶等方向的科研实验室项目,提供有效的支撑帮助。数据集的来源是 The Car Connection 网站,该网站是全球最大的汽车评测网站之一,致力于让汽车研究更加容易。

The Car Connection
The Car Connection

数据集包括 297,000 张图片,但是其中许多是汽车的内部图像,关于汽车的外观大概有 60,000 张照片。所有的文件都对汽车的 15 个参数进行了标注:’Make’, ‘Model’, ‘Year’, ‘MSRP’, ‘Front Wheel Size (in)’, ‘SAE Net Horsepower @ RPM’, ‘Displacement’, ‘Engine Type’, ‘Width, Max w/o mirrors (in)’, ‘Height, Overall (in)’, ‘Length, Overall (in)’, ‘Gas Mileage’, ‘Drivetrain’, ‘Passenger Capacity’, ‘Passenger Doors’, ‘Body Style’

GitHub地址项目 GitHub 地址

《数据竞赛白皮书上/下篇》PDF 下载

近年来,数据竞赛已经成为大数据与人工智能领域的热门话题。据不完全统计,2014 年开始,全球赛事超 1000 场,仅中国的竞赛场次年均增长达 108.8%,累计超 120 万人次参加,奖金累计达到 2.8 亿人民币。拥有这样的增长趋势,数据竞赛已经呈现出了独特的技术价值、业务价值和创新价值,等待着产业、学界、政府机构去进一步发现和运用。

日前,数据科学协同平台厂商 —— 和鲸科技联合大数据系统软件国家工程实验室、AWS 发布了《数据竞赛白皮书》。跨象乘云™ 提供全文 PDF 原文下载 —— 整个白皮书分为:《数据竞赛白皮书 – 上篇 – 1000 场竞赛的深度分析》和《数据竞赛白皮书 – 下篇 – 办好一场竞赛的实操手册》两部分,可直接点击链接下载。

Kaggle 官网课程:从 Python 到机器学习

Kaggle 官网发布了一套完整的 Python 免费微课 ——课程特色:快速上手,在线练习,社区讨论。一共 12 门课,包括一节测试课。课程的设置是以实用为导向,按照数据项目所需要的核心技能来分小节,保证学完就能用,让学时间习性价比最大化。Python,机器学习入门,中极机器学习,数据可视化,Pandas,特征学习,深度学习,SQL 入门,SQL 进阶,地理空间分析,机器学习可解释性。

Kaggle Learn - Faster Data Science Education
Kaggle Learn – Faster Data Science Education

简明数据科学学习路径

Github 上有一份超高赞贴就总结出了这样一份『入门套路』,据这位神秘的发帖人所说,数据科学的学习不需要繁杂的准备和高深的数学知识,你只需有足够的时间、正确的学习方法、对数据分析的好奇心就足够了。这个项目是 Github 上一位名为『维吉尔(Vigilio)』的开发者整理的。项目包括职业进阶路径、专业知识讲解、工具介绍等,着重强调,不走弯路,简明扼要!Vigilio 称,这篇帖子按照层次结构和复杂程度组织编写,以便让学习者对事物的运作方式有一个连贯的想法。另外,小哥还搞了个 Facebook 群组,并不断往上面更新信息,鼓励大家一起学习,互相激励。

5 天前,这份 Github 资料被@jiaxianhua 同胞翻译出了简体中文版,让不想费力读英文的同学也可以轻松上手啦。

简明数据科学学习路径
简明数据科学学习路径

GitHub地址项目 GitHub 地址

Python 知识卡片完整中文版

此前,跨象乘云™ 发布了一系列 Python 数据科学核心库的多份知识卡片,包括 ——

此前的知识卡片主要是英文原版,再次跨象乘云™ 发布《Python 知识卡片完整中文版》,覆盖:Bokeh,Jupyter Notebook,Keras,Matplotlib 绘图,Numpy 基础,Pandas 基础,Pandas 进阶,Python 基础,Scikit-Learn,SciPy,Seaborn,Spark RDD 基础,Spark SQL 基础,导入数据等核心技术领域。