NumPy 中文官方教程

此前,跨象乘云 发布了《NumPy 教程:基础知识》与《Python 知识卡片:NumPy》两份教程。近日,NumPy 官方正式推出了 NumPy 中文版网站,涵盖 NumPy 的一切。在 Github 上一度蝉联最流行的机器学习和数据科学包 NumPy,已经有了非常之系统的中文文档。现在,如果有什么和 NumPy 的问题,只需要浏览这份官方中文文档就足够了。它足够的系统、全面且亲民。NumPy 是使用 Python 进行科学计算的基础软件包,是 Python 生态系统中数据分析、机器学习、科学计算的主力军,极大简化了向量与矩阵的操作处理。除了计算外,它还包括了:

《工业大数据分析指南》2019 版

2019 年 2 月,由工业和信息化部指导,中国信息通信研究院、工业互联网产业联盟、中国通信学会联合主办的 2019 工业互联网峰会在北京国家会议中心举行。在 22 日的主论坛上,工业互联网产业联盟发布了《工业大数据分析指南》白皮书,清华大学大数据系统软件国家工程实验室总工程师王晨对白皮书进行了解读。[……]

继续阅读

Apache Flink 1.10.0 发布

Apache Flink 社区迎来了激动人心的两位数位版本号,Flink 1.10.0 正式宣告发布!作为 Flink 社区迄今为止规模最大的一次版本升级,Flink 1.10 容纳了超过 200 位贡献者对超过 1,200 个 issue 的开发实现,包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化。Flink 1.10 同时还标志着对 Blink 的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理[……]

继续阅读

The Car Connection 汽车数据集

关于汽车的项目很多,比如拍照识车、汽车比价等等,尽管这些项目本身难度不大,但是往往受制于数据集的质量,模型的效果不能很好的发挥。Nicolas Gervais 近日发布了一个关于汽车的数据集,数据相当全质量也相当高,为面向汽车工程类的大数据分析机器学习自动驾驶等方向的科研实验室项目,提供有效的支撑帮助。数据集的来源是 The Car Connection 网站,该网站是全球最大的汽车评测网站之一,致力于让汽车研究更加容易。

数据集包括 297,000 张图片,但是其中许多是汽车的内部图像,关于汽车的外观大概有 60,000 张照片。所有的文件都对汽车的 15 个参数进行了标注[……]

继续阅读

《数据竞赛白皮书上/下篇》PDF 下载

近年来,数据竞赛已经成为大数据与人工智能领域的热门话题。据不完全统计,2014 年开始,全球赛事超 1000 场,仅中国的竞赛场次年均增长达 108.8%,累计超 120 万人次参加,奖金累计达到 2.8 亿人民币。拥有这样的增长趋势,数据竞赛已经呈现出了独特的技术价值、业务价值和创新价值,等待着产业、学界、政府机构去进一步发现和运用。

日前,数据科学协同平台厂商 —— 和鲸科技联合大数据系统软件国家工程实验室、AWS 发布了《数据竞赛白皮书》。跨象乘云™ 提供全文 PDF 原文下载 —— 整个白皮书分为:《数据竞赛白皮书 – 上篇 – 1000 场竞赛的深度分析》和《数据竞赛白皮书 -[……]

继续阅读

Kaggle 官网课程:从 Python 到机器学习

Kaggle 官网发布了一套完整的 Python 免费微课 ——课程特色:快速上手,在线练习,社区讨论。一共 12 门课,包括一节测试课。课程的设置是以实用为导向,按照数据项目所需要的核心技能来分小节,保证学完就能用,让学时间习性价比最大化。Python,机器学习入门,中极机器学习,数据可视化,Pandas,特征学习,深度学习,SQL 入门,SQL 进阶,地理空间分析,机器学习可解释性。[……]

继续阅读

简明数据科学学习路径

Github 上有一份超高赞贴就总结出了这样一份『入门套路』,据这位神秘的发帖人所说,数据科学的学习不需要繁杂的准备和高深的数学知识,你只需有足够的时间、正确的学习方法、对数据分析的好奇心就足够了。这个项目是 Github 上一位名为『维吉尔(Vigilio)』的开发者整理的。项目包括职业进阶路径、专业知识讲解、工具介绍等,着重强调,不走弯路,简明扼要!Vigilio 称,这篇帖子按照层次结构和复杂程度组织编写,以便让学习者对事物的运作方式有一个连贯的想法。另外,小哥还搞了个 Facebook 群组,并不断往上面更新信息,鼓励大家一起学习,互相激励。

5 天前,这份 Github 资料被[……]

继续阅读

Python 知识卡片完整中文版

此前,跨象乘云™ 发布了一系列 Python 数据科学核心库的多份知识卡片,包括 ——

此前的知识卡片主要是英文原版,再次跨象乘云™ 发布《Python 知识卡片完整中文版》,覆盖:Bokeh,Jupyter Notebook,Keras,M[……]

继续阅读

《大数据白皮书(2019年)》

当前,全球大数据正进入加速发展时期,技术产业与应用创新不断迈向新高度。大数据通过数字化丰富要素供给,通过网络化扩大组织边界,通过智能化提升产出效能,不仅是推进网络强国建设的重要领域,更是新时代加快实体经济质量变革、效率变革、动力变革的战略依托。 本白皮书是继 ——

之后,中国信通院第四次发布大数据白皮书。本白皮书在前三版的基础上,聚焦一年多来大数据各领域的进展和趋势,梳理主要问题并进行展望。在技术方面,重点探讨了近两年最新的大数据技术及其融合发展趋势;在产业方面,重[……]

继续阅读

《统计学习方法》第 2 版课件 + 算法实现代码

李航的《统计学习方法》(GitHub 地址)可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。该书从 2005 年开始写作一直到 2012 年完成,包含了众多主要的监督学习算法与模型。今年,《统计学习方法》第二版正式发布,通过 6 年时间的努力,在第一版的基础上又增加了无监督学习的主要算法与模型。

《统计学习方法》第二版的最新课件,是由清华大学深圳研究院的袁春教授制作的。

所有的课件都是 PPT 格式,总共包含 22 章。正好是《统计学习方法》第 2 版的完整内容。

其中,第 1 章至第 12 章主要是《统计学习方法》第一版[……]

继续阅读