Pandas 中文官方教程

此前,跨象乘云 发布了《Python 知识卡片:Pandas》。Pandas 是一个强大的分析结构化数据的工具集;它的使用基础是 NumPy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。学习 Pandas 最好的方法就是看 Pandas 官方教程,日前,国内学习小组发布了 Pandas 官方教程的中文版,包括:《十分钟搞定 pandas》,《Pandas 秘籍》,《学习 Pandas》。

Pandas 中文官方教程》PDF 下载。[……]

继续阅读

23 个 Pandas 核心操作

Pandas 是基于 NumPy 构建的库,在数据处理方面可以把它理解为 NumPy 加强版,同时 Pandas 也是一项开源项目。它基于 Cython,因此读取与处理数据非常快,并且还能轻松处理浮点数据中的缺失数据(表示为 NaN)以及非浮点数据。在本文中,基本数据集操作主要介绍了 CSV 与 Excel 的读写方法,基本数据处理主要介绍了缺失值及特征抽取,最后的 DataFrame 操作则主要介绍了函数和排序等方法。

读取 CSV 格式的数据集

pd.DataFrame.from_csv(“csv_file”)

或者

pd.read_csv(“csv_file”)

读取[……]

继续阅读

Python 知识卡片:Pandas

继续之前的《Python 知识卡片:数据科学入门》,Pandas 最初由 AQR Capital Management 于 2008 年 4 月开发,并于 2009 年底开源出来, 有 NumPy 的加持,让 Pandas 拥有了大量库和一些标准的数据模型,快速便捷地处理数据的函数和方法,可以让我们利用 Python 高效地操作大型数据集,使 Python 成为强大而高效的数据分析环境。Pandas 为了使实际的数据分析更加简单,设计出了快速、灵活而可读性高的数据结构。但可能对于那些刚刚接触 Pandas 的科研人员与学生来说,Pandas 并不是那么容易掌握,尤其是面对这个包里那么多的功能、[……]

继续阅读

Pandas 教程:优化运算

当科研项目达到使用 100 多 TB 生物数据规模的时候,数据科学库的一些局限性会先露出来。面临这种规模的数据时,Pandas 成了最受喜爱的工具;然而,当你开始处理 TB 级别的基因数据时,单核运行的 Pandas 就会变得捉襟见肘。如果我们拥有更多的处理器核,或者要打开数十 TB 规模的文件时,我们希望 Pandas 运行得更快。目前,Apache Spark 是最高性能的分布式选择了,但是如果未对 Pandas 代码做出足够多的修改,你无法使用 Apache Spark 运行 Pandas 代码。

正因如此,来自 UC Berkeley 的 Devin Petersohn 发布文章[……]

继续阅读

Pandas 教程:优化内存

Pandas 是一个 Python 软件库,可用于数据操作和分析,是数据科学领域中的核心组件之一。数据科学博客 Dataquest.io 发布了一篇关于如何优化 Pandas 内存占用的教程:仅需进行简单的数据类型转换,就能够将一个棒球比赛数据集的内存占少了近 90%。

当使用 Pandas 操作小规模数据(低于 100 MB)时,性能一般不是问题。而当面对更大规模的数据(100 MB 到数 GB)时,性能问题会让运行时间变得更漫长,而且会因为内存不足导致运行完全失败。

尽管 Spark 这样的工具可以处理大型数据集(100 GB 到数 TB),但要完全利用它们的能力,往往需要更加[……]

继续阅读

数据科学管道与数据分析库:Pandas

PandasPython 生态系统中最流行的数据分析库,并作为核心组件被跨象乘云公司集成至:数据科学与大数据分析科研教学实践环境中。Pandas 能够完成许多任务,通常用于快速简单的数据操作、聚合和可视化,具体包括:

  • 读/写不同格式的数据
  • 选择数据的子集(教程1234
  • 跨行/列计算
  • 寻找并填写缺失的数据
  • 在数据的独立组中应用操作
  • 重塑数据成不同格式
  • 合并多个数据集
  • 先进的时序功能
  • 通过 matplotlibseaborn 进行可视化操作

尽管 Pandas 功能强大,但它并不为整个数据科学流程提供完整功[……]

继续阅读

2019 年 AI 人才技能指数报告(含数据)

Coursera 是一个高等教育的在线平台。近日,Coursera 发布了《2019 年 AI 技能指数报告》,Coursera 全球技能指数(Global Skills Index)利用这一丰富的数据(Coursera-ai-global-skills-index-2019-data),对 60 个国家和 10 个行业的商业、技术和数据科学技能进行了基准测试,以揭示世界各地的技能发展趋势。Cousera 全面衡量了各国在人工智能以及数学、机器学习、统计、统计编程和软件工程等相关技能方面的技能熟练程度。这些相关技能涵盖了在组织和社会中构建和部署新一代人工智能AI)技术所需的知识范围 ——[……]

继续阅读

人工智能专业(080717T)学习路径及人才培养模型

作为首个直接以『人工智能』命名的专业,080717T 的专业目标,是培养适应国民经济与科技发展的需求,具备较好的科学素养、扎实的人工智能基本理论和专业知识、较强的工程实践能力,掌握智能信息化技术基础知识与方法,能够在人工智能及其相关应用领域从事新技术和新产品研发、系统设计、管理,以及解决复杂工程问题的高级工程技术人才。

人工智能专注于理解视觉,语音,语言,决策等复杂任务的核心能力,并设计机器和软件来模拟这些过程。人工智能具有悠久而丰富的历史,尽管许多工具和技术已经存在数十年(即多层感知器,卷积神经网络,强化学习),然而,高性能计算的最新进展,分布式方法的发展以及大数据产业的发展,[……]

继续阅读

《Python 数据分析》课程

Python是一种面向对象、直译式计算机程序设计语言,由 Guido van Rossum 于 1989 年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python 又被称之为胶水语言,是目前『云计算』 Openstack 的标准开发语言。同时,Python 拥有非常丰富的库,使其在数据分析领域也有广泛的应用。本课程涵括 Python 在大数据分析领域中的五大核心应用:

  1. 数据统计;(NumPy/Pandas 库)
  2. 数据采集;(Scrapy Web 爬虫采集)
  3. 数据处理;(清理、转换、合并、重塑)
  4. 数据分析;(数据聚合与时间序列)
  5. 数据可视化;[……]

    继续阅读

《机器学习》课程

在如今这个处处以数据驱动的世界中,机器学习,深度学习,人工智能正变得越来越大众化。在大数据的爆发性增长背景下,当今的机器学习技术已经被广泛地应用于不同领域,如搜索引擎、机器人、无人驾驶汽车等。机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。

本课程,覆盖机器学习核心算法模型,为学生打下坚实的机器学习算法模型基础,通过超过 20 个实战项目,使学生从技术原理,到[……]

继续阅读