Google 推出 TensorFlow 开发者证书

在当今的 AI 世界中,越来越多的公司正在寻求与聘请机器学习方面的人才,与此同时,越来越多的学生和开发者也正在寻求获取和展示 ML 知识的渠道。

除了在线课程和学习资源之外,我们希望帮助开发者展示自身在机器学习方面的能力,同时也帮助企业聘请到专业的机器学习开发者来解决所面临的挑战。

日前,Google 推出了 TensorFlow 开发者证书,希望能借此让世界各地的开发者有机会在 AI 影响日趋深远的全球就业市场中展示 ML 技能。

TensorFlow 开发者证书,是一个为学生、开发者和数据科学家提供的基础证书。通过使用 TensorFlow 构建和训练基本模型,来展示开发者在机器学习领域的实用技能。这项初级证书主要考察开发者将机器学习集成到工具和应用中的基础知识,这需要开发者了解在计算机视觉、序列建模和自然语言处理中,构建基本 TensorFlow 模型的方法。

基于 NumPy 的 30 多个机器学习算法开源代码

NumPy 手写所有主流 ML 模型,普林斯顿博士后 David Bourgin 最近开源了一个非常剽悍的项目。超过 3 万行代码、30 多个模型,这也许能打造「最强」的机器学习基石。NumPy 作为 Python 生态中最受欢迎的科学计算包,很多读者已经非常熟悉它了。它为 Python 提供高效率的多维数组计算,并提供了一系列高等数学函数,我们可以快速搭建模型的整个计算流程。

尽管目前使用 写模型已经不是主流,但这种方式依然不失为是理解底层架构和深度学习原理的好方法。最近,来自普林斯顿的一位博士后将 NumPy 实现的所有机器学习模型全部开源,并提供了相应的论文和一些实现的测试效果。

GitHub地址项目 GitHub 地址

GitHub Classroom 协助老师实现自动编码练习评分

GitHub 宣布推出 GitHub Classroom 功能,它是一组帮助计算机科学老师分配和评估编码练习的工具集合,同时也是用于协助教师的一组新工具。其中第一个是自动分级,它确实很符合这个名称。教师现在可以将测试添加到他们的工作当中,并且自动测试以及评分。这些测试将会在每个学生的资料库中自动运行,不过更重要的是,教师可以选择测试中的行反馈以及请求提供特定的反馈。

深度学习常用概率分布及实现代码

概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。作为深度学习从业者,你需要知道概率分布相关的知识。这里有一份最常见的基本概率分布教程,大多数和使用 Python 库进行深度学习有关。

Overview of distribution probability
Overview of distribution probability
  • 均匀分布(连续):均匀分布在 [a,b] 上具有相同的概率值,是简单概率分布。
  • 伯努利分布(离散):先验概率 p(x)不考虑伯努利分布。因此,如果我们对最大似然进行优化,那么我们很容易被过度拟合。利用二元交叉熵对二项分类进行分类。它的形式与伯努利分布的负对数相同。
  • 二项分布(离散):参数为 n 和 p 的二项分布是一系列 n 个独立实验中成功次数的离散概率分布。二项式分布是指通过指定要提前挑选的数量而考虑先验概率的分布。
  • 多伯努利分布,分类分布(离散):多伯努利称为分类分布。交叉熵和采取负对数的多伯努利分布具有相同的形式。
  • 多项式分布(离散):多项式分布与分类分布的关系与伯努尔分布与二项分布的关系相同。
  • β 分布(连续):β 分布与二项分布和伯努利分布共轭。利用共轭,利用已知的先验分布可以更容易地得到后验分布。当β分布满足特殊情况(α=1,β=1)时,均匀分布是相同的。
  • Dirichlet 分布(连续):Dirichlet 分布与多项式分布是共轭的。如果 k=2,则为β分布。
  • 伽马分布(连续):如果 gamma(a,1)/gamma(a,1)+ gamma(b,1)与 beta(a,b)相同,则 gamma 分布为 β 分布。指数分布和卡方分布是伽马分布的特例。
  • 指数分布(连续):指数分布是 α 为 1 时 γ 分布的特例。
  • 高斯分布(连续):高斯分布是一种非常常见的连续概率分布。
  • 正态分布(连续):正态分布为标准高斯分布,平均值为 0,标准差为 1。
  • 卡方分布(连续):k 自由度的卡方分布是 k 个独立标准正态随机变量的平方和的分布。卡方分布是 β 分布的特例。
  • t 分布(连续):t 分布是对称的钟形分布,与正态分布类似,但尾部较重,这意味着它更容易产生远低于平均值的值。

GitHub地址项目 GitHub 地址

微软推出 Python 零基础教程

如果你想了解一门既实用又简单的语言,作为你程序人生的第一步,那么,Python 无疑是最适合你的。数据科学家和人工智能从业者们尤其喜欢 Python,因为它有丰富的、易于理解的语法和广泛的开源软件。然而,目前大部分的所谓入门教程,实际上对于真正零基础的人来说还是具有很高的门槛,同时,几百页的书和动不动上百个小时的学习视频对有的人来说,无疑是劝退。

微软意识到了这一点,也充分理解大多数人对于学习的耐心,于是就开发了一门 Python 的入门课程《Python for Beginners》(国内镜像),基于原生 VS Code,每节课只有 5-10 分钟,可以被认为是真正的入门及课程了。

近期,跨象乘云™ 也开始针对不具备计算机编程以及统计学经验的学生,进行各种机器学习算法实验的《智能数据挖掘》实战系列课程,旨在让更多的人参与的机器学习与人工智能的生态圈中。

Spark 玩转 TensorFlow 2.0

大数据深度学习逐步成为研究的主流趋势。这是《30 天吃掉那只 TensorFlow2.0》里面的其中一篇,介绍在 Spark 中调用训练好的 TensorFlow 模型进行预测的方法。本篇文章通过 TensorFlow for Java 在 Spark 中调用训练好的 TensorFlow 模型。利用 Spark 的分布式计算能力,从而可以让训练好的 TensorFlow 模型在成百上千的机器上分布式并行执行模型推断。

本案例以 TensorFlow 2.0 的 tf.keras 接口训练的线性模型为例进行演示。在本例基础上稍作修改则可以用 Spark 调用训练好的各种复杂的神经网络模型进行分布式模型推断。但实际上 TensorFlow 并不仅仅适合实现神经网络,其底层的计算图语言可以表达各种数值计算过程。利用其丰富的低阶 API,我们可以在 TensorFlow 2.0 上实现任意机器学习模型。结合 tf.Module 提供的便捷的封装功能,我们可以将训练好的模型导出成模型文件并在 Spark 上分布式调用执行。这无疑为我们的工程应用提供了巨大的想象空间。

用 Jupyter Notebook 制作新冠病毒疫情追踪器

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

新冠肺炎已在全球范围内爆发。为了解全球疫情分布情况,日前,一位名叫 Michael Freeborn 的医生 / 程序员,利用 Python 的图形库 Plotly,制作了两种疫情的等值线地图(Choropleth Chart)和 GEO 分布散点图(”Scatter-Geo” Chart)。前者显示了一个国家 / 地区的疫情扩散情况:该国家 / 地区的在地图上的颜色越深,其确诊案例越多。其中的播放键可以为图表制作动画,同时还可以使用滑块手动更改日期。第二个散点图中的红点则表明其大小与某一特定地点的确诊病例数量成对数比例。这个图表的分辨率更高,数据呈现的是州/省一级的疫情情况。

同时,作者发布了该项目的代码。

GitHub地址项目 GitHub 地址

fast.ai 面向 Pytorch 的深度学习新书开源

fast.ai 的创始人、前 Kaggle 首席科学家 Jeremy Howard 教授在 Github 上开源了和 Sylvain Gugger 合著的新书《Deep Learning for Coders with fastai and PyTorch》的初稿。全书草稿已公布 22 章,通过这份它你将学到:

  • 如何在计算机视觉、自然语言处理、推荐系统、表格和时间序列数据分析中创建最先进的模型
  • 如何使用全新的 fastai v2 库和 PyTorch
  • 深度学习的基础:什么是神经网络,它们是如何训练的,以及它们如何进行预测
  • 为什么以及如何使用深度学习模型,以及如何使用这些知识来提高模型的准确性、速度和可靠性
  • 如何将你的模型转换为实际的 Web 应用程序,以及在模型出错时如何调试模型。
  • 最新的深度学习技术,尝试真正有意义的实践
  • 如何阅读深度学习研究论文
  • 如何实现深度学习算法从无到有

不过该课程并非面向零基础人士,虽说不要求你处理大量数据,也不需要你具备大学水平的数学能力,但是你至少需要有一年的编程经验。

GitHub地址项目 GitHub 地址

《模式识别与机器学习 – PRML》中文版

日前,微软剑桥研究院公布了一个好消息,Christopher Bishop 所著的,最经典的机器学习教科书之一:《模式识别与机器学习》(Pattern Recognition and Machine Learning),公开了免费的 PDF 版本。这本经典的教科书全面介绍了模式识别和机器学习领域。它面向高年级本科生或一年级博士生,以及研究人员和从业人员。这是第一本机器学习教科书,全面包含该领域近期发展,包括概率图形模型和确定性推理方法,并强调现代贝叶斯。它适用于机器学习,统计学,计算机科学,信号处理,计算机视觉,数据挖掘和生物信息学等课程。该书出版于 2006 年,共有 738 页,全彩印刷,包括 431 个分级练习,并配套 MatLabPython 源代码。由马春鹏完成了《模式识别与机器学习 – PRML中文版》翻译。大纲包括:

  • 第一章 介绍
  • 第二章 概率分布
  • 第三章 线性回归模型
  • 第四章 线性分类模型
  • 第五章 神经网络
  • 第六章 内核方法
  • 第七章 稀疏内核机器
  • 第八章 图形模型
  • 第九章 混合模型和EM
  • 第十章 近似推断
  • 第十一章 采样方法
  • 第十二章 连续潜在变量
  • 第十三章 顺序数据
  • 第十四章 组合模型