Python 知识卡片:Scikit-Learn

继续之前的:

大多数使用 Python 学习数据科学的科研工作人员与学生,肯定会听说 scikit-learn,这是一个开源的Python 库,它通过统一的界面实现了各种机器学习,预处理,交叉验证和可视化算法。如果你对这个领域还很陌生,你应该意识到机器学习以及 Python 库是属于每个有抱负的数据科学家必须知道的。

此前,跨象乘云™ 曾经介绍了完整的 scikit-learn 算法[……]

继续阅读

Python 知识卡片:Matplotlib

继续之前的:

使用数据进行数据可视化和讲故事是每个数据科学家需要将从分析中获得的深刻见解有效传达给任何观众的基本技能。对于大多数初学者来说,他们用来接触数据可视化和讲故事的第一个包本来就是 Matplotlib:它是一个 Python 2D 绘图库,可以让用户制作出版质量的图。但是,更令人信服的是,其他软件包(例如 Pandas )打算随着时间的推移与 Matplotlib 进行更多的绘图集成。然而,可能会减慢初学者的事实是,这个软件包相当广泛[……]

继续阅读

Python 知识卡片:NumPy

继续之前的:

作为数据科学的基本包之一,NumPy 是你必须能够使用并确认你是否需要使用 Python 进行数据科学工程实践的软件包之一。它提供了 Python 列表的一个很好的选择,因为 NumPy 数组更紧凑,允许更快地读取和写入项目,并且更方便,更高效。此外,NumPy 也是其他重要软件包的基础,用于数据操作和机器学习,您可能已经知道,即 PandasScikit-LearnSciPy

  • Pandas 数据操作库建立在 NumPy 上,但它不是使用数组,而是使用另外[……]

    继续阅读

Python 知识卡片:Pandas

继续之前的《Python 知识卡片:数据科学入门》,Pandas 最初由 AQR Capital Management 于 2008 年 4 月开发,并于 2009 年底开源出来, 有 NumPy 的加持,让 Pandas 拥有了大量库和一些标准的数据模型,快速便捷地处理数据的函数和方法,可以让我们利用 Python 高效地操作大型数据集,使 Python 成为强大而高效的数据分析环境。Pandas 为了使实际的数据分析更加简单,设计出了快速、灵活而可读性高的数据结构。但可能对于那些刚刚接触 Pandas 的科研人员与学生来说,Pandas 并不是那么容易掌握,尤其是面对这个包里那么多的功能、[……]

继续阅读

经济专业与经济计量学

经济专业的学生要分析统计资料,在标准的统计学课程中所学到的描述性统计,绝大多数学生无法用到实际经济分析中。经济学家发展出比较适用于分析经济资料的统计方法就是经济计量学。若想要比较深入的应用统计方法到经济学研究中,必须进一步学习经济计量学。

—— 原文作者:袁建文(广东财经大学经济学院)

一般人对经济学的直觉反应是:那是一个很高深的理论。然而我们也应该知道,经济学的研究虽然是从严谨抽象的理论出发,但因为研究对象是人的行为,经济学也必须相当“实际”,当我们评断经济理论是否成立时,当然是要看它符不符合人的行为。因此很大一部分经济学研究是以实际资料的观察和分析为中心的。经济专业学生必须有分析资料的[……]

继续阅读

YouTube 推荐算法透视

正如跨象乘云™ 的视频点播推荐系统大数据实训项目工程案例所描述,目前,算法已经成为驱动 YouTube 收入增长最有效的工具,使用神经网络通过大量数据和用户观看记录对用户进行分析,YouTube 的工程师将其描述为目前规模最大、最复杂的商用推荐系统。那这个推荐系统到底是怎么工作的呢?

本质上,过滤气泡(filter bubble,一种网站针对个人化搜索而提供筛选后内容的结果)的生成方式,也是所有推荐算法的工作原理。一小段电脑代码跟踪你正在进行的动作,比如你最常看的视频分类、最长观看时间,然后推荐给你同一类型的视频。内容推荐算法的过程一般包括以下三步:

  1. Item Represen[……]

    继续阅读

NumPy 教程:基础知识

此前,跨象乘云™ 介绍了几篇关于 Python 《数据科学管道与数据分析库:Pandas》的教程,NumPy(Numerical Python)是 Python 中的一个线性代数库。对每一个数据科学或机器学习 Python 包而言,这都是一个非常重要的库,SciPy(Scientific Python)、Mat-plotlib(plotting library)、Scikit-learn 等都在一定程度上依赖 NumPy。对数组执行数学运算和逻辑运算时,NumPy 是非常有用的。在用 Python 对 N 维数组和矩阵进行运算时,NumPy 提供了大量有用特征。

这篇教程介绍了数据科学初[……]

继续阅读

UC Berkeley 在线课程:数据科学、机器学习、推理重采样

近日,伯克利 RISE 实验室在教育网络平台上开放了一门免费的数据科学入门课程,该课程面向那些需要学习数据科学而又缺少数学及编程经验的人,除了数据科学基础,也涵盖了机器学习课程。

数据科学基础系列课将从头开始教授计算和推理思想。它涵盖了从测试假设,应用统计推断,可视化分布和绘制结论等所有内容,值得一提的是,所有编程作业都是在 Python 中编写代码并使用真实世界的数据集。

其中一门课程会让学生基于从不同国家收集的多年来的经济数据跟踪全球经济增长。另一门课程会使用细胞样本数据集来创建能够诊断乳腺癌的分类算法。在现实世界中进行数据科学的探索,能够使前沿的统计学和计算机科学概念更加直观[……]

继续阅读

RStudio 2018 大会资料下载

2018 年 R 语言盛会:RStudio 大会官方发布了会议的全部资料。大会发布了呈现在各种主题上的网络研讨会和视频,涵盖软件包,产品(包括开源和商业),邀请演讲嘉宾,以及常规问答录音 —— 所有材料将免费提供。R 语言作为数据科学,数理统计学的专业核心学科,本次大会更将材料分类为:

  • RStudio 基础
  • RStudio 连接
  • Shiny 交互数据分析处理平台基础
  • Shiny 进阶
  • 数据科学基础
  • 高级数据科学
  • sparklyr R 语言到 Spark 连接软件库

是一份非常有价值的学习与科研材料。

GitHub地址项目GitHub地址[……]

继续阅读

商务智能数据可视化分析科研教学实践环境

商务智能数据可视化分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的商务智能与大数据可视化分析实战综合环境。以提升高校社会科学类专业学生数据素养,培养商业数据分析师,数据新闻记者,数字图书馆及知识库管理员为人才定位,可供高职类大数据技术与应用(610215)专业学生,及新闻传播,社会科学,经济管理,统计数理学院等非计算机专业学生或项目研究小组完成数据整理,商务数据智能分析,数据可视化运营,可视化机器学习与数据挖掘,业务预测,报表输出等全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装完整的数据采集,数据整理,机器学习,数据[……]

继续阅读