可视化神器 Altair 登场 – 2

图表的扩展

Altair 的另一个美妙之处就是,我们可以从现有的图表中创建新的图表。例如,我们现在要加入新的数据 income,我们唯一需要做的就是告诉 Altair:用 income 作为y轴,代码如下所示:

categorical_chart = alt.Chart(data).mark_circle(size=200).encode(
x='population:Q',
y='income:Q',
color='country_id:N')

如果想添加数据提示的功能(tooltip,鼠标悬停在数据上时,会显示该数据的详细信息),只需要增加一行代码:

ca[......]<p class="read-more"><a href="https://www.080910t.com/2019/05/14/%e5%8f%af%e8%a7%86%e5%8c%96%e7%a5%9e%e5%99%a8-altair-%e7%99%bb%e5%9c%ba-2/?hilite=MatPlotLib">继续阅读</a></p>

可视化神器 Altair 登场 – 1

如何将我们的数据以更好的形势呈现出来?擅长不同编程语言的程序员会选择各自技术范畴内成熟、好用的工具包,比如 R 语言的开发者最常使用的是 ggplot2,但它不支持 Python;以前 Python 语言的开发者使用最多的是 matplotlib,一个很强大的可视化库,不过它的局限也非常严重,制作交互式图表也是一件难事。今天要给大家推荐一个新的工具—— Altair,一个 Vega-Lite 的包装器,也许这些概念你都还不没了解过,接下来我们就在下面的文章为大家作介绍。

ggplot2 是 R 的作图工具包,可以使用非常简单的语句实现非常复杂漂亮的效果。然而不幸的是,ggplot2 并不[……]

继续阅读

20G 绝地求生比赛数据集分析

项目主要分析绝地求生 72 万场比赛的数据,并结合数据给出吃鸡攻略,用数据吃鸡!

数据集说明

  • 数据来自 Kaggle
  • 数据主要分成两部分,一部分是玩家比赛的统计数据,在 aggregate.zip,一部分是玩家被击杀的数据,在 deaths.zip
  • 本次分析选取其中的两个数据集进行分析

运行环境:

  • python 3.6

需要安装的包

  • pandas、numpy、scipy
  • matplotlib、seaborn、boke

GitHub地址项目 GitHub 地址[……]

继续阅读

Python 知识卡片:Bokeh

继续之前的:

对于 Bokeh,应该与其他 Python 可视化库(如 Matplotlib 或 Seaborn)区别开来,因为它是一个交互式可视化库,非常适合希望快速轻松地创建交互式图表,仪表板和数据应用程序的任何人。Bokeh 也因在现代 Web 浏览器中实现大型数据集的高性能视觉呈[……]

继续阅读

Python 知识卡片:数据导入

继续之前的:

在做任何数据清理,争论,可视化 … 之前,您需要知道如何将数据导入 Python。有很多方法可以将数据导入 Python,具体取决于您正在处理的文件。然而,你最经常使用 PandasNumPy 库:熊猫库是数据科学家进行数据操作和分析的首选工具之一,旁边是用于数据可视化的 matplotlib 和 NumP[……]

继续阅读

Python 知识卡片:Scikit-Learn

继续之前的:

大多数使用 Python 学习数据科学的科研工作人员与学生,肯定会听说 scikit-learn,这是一个开源的Python 库,它通过统一的界面实现了各种机器学习,预处理,交叉验证和可视化算法。如果你对这个领域还很陌生,你应该意识到机器学习以及 Python 库是属于每个有抱负的数据科学家必须知道的。

此前,跨象乘云™ 曾经介绍了完整的 scikit-learn 算法[……]

继续阅读

Python 知识卡片:NumPy

继续之前的:

作为数据科学的基本包之一,NumPy 是你必须能够使用并确认你是否需要使用 Python 进行数据科学工程实践的软件包之一。它提供了 Python 列表的一个很好的选择,因为 NumPy 数组更紧凑,允许更快地读取和写入项目,并且更方便,更高效。此外,NumPy 也是其他重要软件包的基础,用于数据操作和机器学习,您可能已经知道,即 PandasScikit-LearnSciPy

  • Pandas 数据操作库建立在 NumPy 上,但它不是使用数组,而是使用另外[……]

    继续阅读

Python金融工程领域应用项目

跨象乘云汇总了 2017 年 Python 在金融工程领域应用中的各个最佳实践项目案例:

首先,你需要了解如何使用 Python 与常见的数据表打交道。DataCamp 上的教程:Python Excel Tutorial: The Definitive Guide,让你了解如何使用 Python 读取和导入 Excel 文件,如何将数据写入这些电子表格;或者与 Google Sheets 协同工作。

同时,如何通过 NumpyPandasMatplotlibQuantopianFinance 等,学习 Python 在金融交易领域的算法应用? DataCamp 的教程:P[……]

继续阅读

数据科学管道与数据分析库:Pandas

PandasPython 生态系统中最流行的数据分析库,并作为核心组件被跨象乘云公司集成至:数据科学与大数据分析科研教学实践环境中。Pandas 能够完成许多任务,通常用于快速简单的数据操作、聚合和可视化,具体包括:

  • 读/写不同格式的数据
  • 选择数据的子集(教程1234
  • 跨行/列计算
  • 寻找并填写缺失的数据
  • 在数据的独立组中应用操作
  • 重塑数据成不同格式
  • 合并多个数据集
  • 先进的时序功能
  • 通过 matplotlibseaborn 进行可视化操作

尽管 Pandas 功能强大,但它并不为整个数据科学流程提供完整功[……]

继续阅读

数据科学与大数据分析科研教学实践环境

数据科学与大数据分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的数据科学与大数据分析项目开发综合环境,可供数据科学与大数据技术(080910T)专业学生或项目开发小组完成数据科学,大数据分析,数据挖掘,机器学习,以及深度学习与新一代人工智能全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装多个流行的 Python 数据科学组件与套件库,满足相关教学与实验所需的应用场景;支持数据科学工程在各个 Python 版本以及 R 语言数据分析环境间自由切换。通过一键部署与统一管理组件,能实现 1,000 个以上数据科学基因链套件库[……]

继续阅读