Google 图像分类公开课程

三月份,Google AI 人工智能教育项目放出大福利,将内部机器学习速成课程(MLCC)免费开放给所有人,以帮助更多开发人员学习和使用机器学习。跨象乘云™ 此前做过相关《Google AI 线上机器学习开放课程》信息发布。今天,Google AI 再次放出大招,推出一个专注于机器学习实践的交互式课程,第一门是图像分类机器学习实践,已有超过 10,000 名谷歌员工使用这个教程构建了自己的图像分类器。内容简明易上手,不妨来试。

这个动手实践课程包含视频、文档和交互式编程练习,分步讲解谷歌最先进的图像分类模型是如何开发出来的。这一图像分类模型已经在 Google 相册的搜索功能中应用。迄今为止,已经有超过 10,000 名谷歌员工使用这个实践指南来训练自己的图像分类器,识别照片上的猫和狗。

在这个交互式课程中,首先,你将了解图像分类是如何工作的,学习卷积神经网络的构建模块。然后,你将从头开始构建一个 CNN,了解如何防止过拟合,并利用预训练的模型进行特征提取和微调。学习本课程,你将了解谷歌最前沿(State-of-the-Art)的图像分类模型是如何开发出来的,该模型被用于在 Google Photos 中进行搜索。这是一个关于卷积神经网络(CNN)的速成课程,在学习过程中,你将自己构建一个图像分类器来区分猫的照片和狗的照片。

预计完成时间:90 ~ 120 分钟;先修要求:已学完谷歌机器学习速成课程,或有机器学习基本原理相关的经验。精通编程基础知识,并有一些 Python 编程的经验。

强化学习环境 Gym Retro

Gym 是 OpenAI 发布的用于开发和比较强化学习算法的工具包。使用它我们可以让 AI 智能体做很多事情,比如行走、跑动,以及进行多种游戏。目前,它运行在支持 Python 3.5 和 3.6 的 Linux、MacOS 和 Windows 系统上。

OpenAI 近日发布了完整版游戏强化学习研究平台 —— Gym Retro。在本次发布之后,OpenAI 公开发布的游戏数量将从大约 70 个雅达利和 30 个世嘉游戏增加到了 1,000 多个游戏,其中包括对任天堂 Game boy 等各种模拟器的支持。此外,OpenAI 还将发布用于向 Gym 平台添加新游戏的工具。

OpenAI 利用 Gym Retro 对强化学习算法及学习能力的泛化进行了研究。RL 领域之前的研究主要集中在优化智能体以完成单个任务上。Gym Retro 可以帮助研究在概念相似但外观不同的游戏之间进行泛化的能力。OpenAI 还将发布用于集成新游戏的工具。如果你有游戏 ROM,此工具可以帮你轻松创建储存状态、寻找内存位置以及设计强化学习智能体可以实施的方案。OpenAI 已经为希望增加新游戏支持的人编写了一个《集成器指南》。

此前,OpenAI 通过举办迁移学习竞赛:评估强化学习算法表现

GitHub地址项目 GitHub 地址

Google 发布关于机器学习工程的最佳实践

此前,跨象乘云™ 介绍了面向新一代人工智能的《最佳 TensorFlow 科研项目架构模板实践》,最近 Google 也发布了关于机器学习工程方向的最佳实践指南。本文档旨在帮助已掌握机器学习基础知识的人员从 Google 机器学习的最佳实践中受益。它介绍了一种机器学习样式,类似于 Google C++ 样式指南和其他常用的实用编程指南。如果您学习过机器学习方面的课程,或者拥有机器学习模型的构建或开发经验,则具备阅读本文档所必需的背景知识。此处为原文官方中文翻译

Python 知识卡片:Bokeh

继续之前的:

对于 Bokeh,应该与其他 Python 可视化库(如 Matplotlib 或 Seaborn)区别开来,因为它是一个交互式可视化库,非常适合希望快速轻松地创建交互式图表,仪表板和数据应用程序的任何人。Bokeh 也因在现代 Web 浏览器中实现大型数据集的高性能视觉呈现而闻名。

对于数据科学家来说,Bokeh 是快速轻松构建统计图表的理想工具。但也有其他优点,例如各种输出选项以及可将应用程序嵌入可视化的事实。我们不要忘记,各种各样的可视化定制选项使得这个 Python 库成为您数据科学工具箱不可或缺的工具。

现在,DataCamp 为那些已经参加课程并且仍然需要方便的单页参考或需要额外推动才能开始的人创建了知识卡片。简而言之,你会发现这张备忘单不仅向你展示了你可以制作美丽情节的五个步骤,还将向你介绍统计图表的基础知识。这款 Bokeh 备忘单很快就会让您熟悉如何准备数据,创建新图,使用自定义可视化为数据添加渲染器,输出图并保存或显示。而基本统计图表的创建将不再为您保留任何秘密。借助 Bokeh 提升您的Python数据可视化效果!Python 交互式数据可视化库 Bokeh 知识卡片 PDF 下载。

Python 知识卡片:数据导入

继续之前的:

在做任何数据清理,争论,可视化 … 之前,您需要知道如何将数据导入 Python。有很多方法可以将数据导入 Python,具体取决于您正在处理的文件。然而,你最经常使用 PandasNumPy 库:熊猫库是数据科学家进行数据操作和分析的首选工具之一,旁边是用于数据可视化的 matplotlib 和 NumPy,它是基础库 Python 中的科学计算 Pandas 的建立。在 Python 导入表中导入数据时,您会发现一些 NumPy 和 Pandas 函数以及 Python 编程语言中构建的函数,这些函数将帮助您快速获取 Python 中的数据!Python 数据导入知识卡片 PDF 下载。

Python 知识卡片:Scikit-Learn

继续之前的:

大多数使用 Python 学习数据科学的科研工作人员与学生,肯定会听说 scikit-learn,这是一个开源的Python 库,它通过统一的界面实现了各种机器学习,预处理,交叉验证和可视化算法。如果你对这个领域还很陌生,你应该意识到机器学习以及 Python 库是属于每个有抱负的数据科学家必须知道的。

此前,跨象乘云™ 曾经介绍了完整的 scikit-learn 算法工程导图,这次 DataCamp 为您已经开始学习 Python 包的人创建了 scikit-learn 知识卡片,但仍需要一个方便的参考表。或者,如果您仍然不了解 scikit-learn 的 工作原理,这本机器学习知识卡片可能会派上用场,以便快速了解您需要知道的基本入门知识。无论哪种方式,当您解决机器学习问题时,我们确信您会发现它很有用!这个 scikit-learn 知识卡片将向您介绍您需要经过的基本步骤,以成功实现机器学习算法:您将看到如何加载数据,如何对其进行预处理,如何创建自己的模型您可以调整数据并预测目标标签,如何验证模型以及如何进一步调整以提高其性能。Python scikit-learn 库知识卡片 PDF 下载。

2018 年 50+ 机器学习 API

API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。本文是 KDnuggets 整理的 API 列表第三版,从 2017 年的列表中删除了停用的 API,并将其更新为新的 API。所有的机器学习 API 被分为新兴的几大类应用:

  • 人脸和图像识别
  • 文本分析、自然语言处理、文本情感分析
  • 语言翻译
  • 机器学习和预测

Python 知识卡片:Matplotlib

继续之前的:

使用数据进行数据可视化和讲故事是每个数据科学家需要将从分析中获得的深刻见解有效传达给任何观众的基本技能。对于大多数初学者来说,他们用来接触数据可视化和讲故事的第一个包本来就是 Matplotlib:它是一个 Python 2D 绘图库,可以让用户制作出版质量的图。但是,更令人信服的是,其他软件包(例如 Pandas )打算随着时间的推移与 Matplotlib 进行更多的绘图集成。然而,可能会减慢初学者的事实是,这个软件包相当广泛。你可以用它做很多事情,当你学习如何使用 Matplotlib 时,可能很难保持一个结构。DataCamp 为那些可能已经知道如何使用这个软件包来创建优秀的 Python 图表的人创建了一个 Matplotlib 知识卡片,但是仍然希望保持一页参考的方便。当然,对于那些不知道如何使用 Matplotlib 的人来说,这可能需要额外的推动才能确信,并最终开始使用 Python 进行数据可视化。Python Matplotlib 库小抄表 PDF 下载。

Python 知识卡片:NumPy

继续之前的:

作为数据科学的基本包之一,NumPy 是你必须能够使用并确认你是否需要使用 Python 进行数据科学工程实践的软件包之一。它提供了 Python 列表的一个很好的选择,因为 NumPy 数组更紧凑,允许更快地读取和写入项目,并且更方便,更高效。此外,NumPy 也是其他重要软件包的基础,用于数据操作和机器学习,您可能已经知道,即 PandasScikit-LearnSciPy

  • Pandas 数据操作库建立在 NumPy 上,但它不是使用数组,而是使用另外两个基本的数据结构:Series和 DataFrame;
  • SciPy 构建于 Numpy 之上,提供大量可在 NumPy 阵列上运行的函数;
  • 机器学习库:Scikit-Learn 不仅可以构建 NumPy,还可以构建 SciPy 和 Matplotlib。

你会发现,NumPy 这个 Python 库是一个必须知道的事情:如果你知道如何使用它,你还将更好地理解你将毫无疑问使用的其他 Python 数据科学工具。这张由 Datacamp 制作的小抄表覆盖了 NumPy 包的基础知识,Python NumPy 库小抄表 PDF 下载

新一代人工智能顶会论文攻略

在人工智能领域,会议论文是证明研究人员学术水平的重要一环。是否存在一些「技巧」可以提高论文被大会接收的几率?人工智能是否可以帮助我们?近日,来自卡耐基梅隆大学(CMU)研究者们收集了上万篇 AI 顶级会议的接收/被拒论文,并使用机器学习工具进行分析,获得了一些有趣的结果。权威的科学会议利用同行评审来决定要将哪些论文列入其期刊或会议记录。虽然这一过程似乎对科学出版物至关重要,但其往往也饱受争议。意识到同行评审的重要影响,一些研究人员研究了这一过程中的各个方面,包括一致性、偏差、作者回应和一般评审质量 (Greaves 等,2006;Greaves 等,2011;De Silva and Vance, 2017)。例如,NIPS 2014 会议的组织者将 10% 的会议提交论文分配给两组不同的审查人员,以衡量同行评审过程的一致性,并观察到两个委员会对超过四分之一的论文接受/拒绝决定意见不一样 (Langford and Guzdial, 2015)。

尽管已经有了这些努力,但是关于同行评审的定量研究还是有限的,很大程度上是由于只有很少的人能够接触到一个学术活动的同行评审(例如期刊编辑和程序主席)。本文的目的是通过首次引入一个用于研究目的的同行评审公共数据集: PeerRead,来降低科学界研究同行评审的障碍。

同行评审是科学文献出版过程中的重要组成部分。在本研究中,我们提出了第一个可用于研究目的的科学文献同行评审公共数据集 ( PeerRead v1 ),该数据集为研究这一重要的现象提供了机会。该数据集由 1 万 4 千 700 份论文草稿,以及包括 ACL、NIPS 和 ICLR 在内的顶级学术活动对应的接受/拒稿决定组成。数据集还包括专家为论文子集撰写的 1 万零 700 份文本同行评审。我们描述了数据收集过程,并提供了在同行评审中观察到的有趣现象。我们在此基础上提出了两个新颖的 NLP 任务,并给出了简单的基线模型。在第一个任务中,我们展示了简单的模型可以预测一篇论文是否被接受,与大多数基线模型相比,误差减少了 21 %。在第二个任务中,我们预测了评审方面的数值分数,结果表明,对于诸如「原创性」和「影响」的高方差方面,简单模型可以优于平均基线。

GitHub地址项目 GitHub 地址