新一代人工智能科研数据集

近日,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现将最近新增数据集整理如下 ——

  • 开源生物识别数据。
    http://openbiometrics.org/
  • Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。
    地址:https://research.google.com/audioset/
  • Uber 2B trip data:首次展示 2 百万公里的出行数据。
    地址:https://movement.ub[……]

    继续阅读

机器学习的数学基础

此前,跨象乘云™ 曾发布过由 Marc Peter Deisenroth,A Aldo Faisal 和 Cheng Soon Ong 撰写的《机器学习数学基础》。这个是从大学教材里搜集的机器学习数学基础资料,分为高等数学,线性代数、概率论与数理统计三部分。另外包括了斯坦福大学 CS 229 机器学习课程的基础材料,难度应该在本科 3 年级左右。数据科学需要一定的数学基础,但仅仅做应用的话,如果时间不多,不用学太深,了解基本公式即可,遇到问题再查吧。

GitHub地址项目 GitHub 地址[……]

继续阅读

微软官方教程:在 Windows 进行 Python 开发

在 Windows 上做 Python 开发太痛苦?微软最近发布了一系列官方教程,这些教程将指导使用者如何设置开发环境、是否在原生 Windows 或 Windows Subsystem for Linux (WSL) 系统上安装自己的工具,以及如何集成 VS Code、Git 等工具。

具体教程如下所示:

  • 初学者在 Windows 上使用 Python 的教程
  • Web 开发者在 Windows 上使用 Python 的教程
  • 在 Windows 上使用 Python 编写脚本和自动执行文件系统操作
  • 在 Windows 上使用 Python 执行机器学习任务
  • [……]

    继续阅读

开源 Markdown 编辑器

Markdown 是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式。Markdown 在文字爱好者和码农们那里非常受欢迎,今天和大家推荐另一款高颜值的、功能强大的开源 Markdown 编辑器 —— Notable,Notable 一款开源的高颜值、跨平台的 Markdown 编辑器。

Notable

Notable 支持 Linux、FreeBSD、MacOS、Windows7 等主流操作系统,实际上它与 VS Code 所使用的编辑器相同,因此内置了多光标,小地图和一流的语法高亮等功能。和其他编辑器的功能特性比较如下:

Click to Enlarge

GitHub地址项目 G[……]

继续阅读

语音数据处理指南

随着企业开始进行人工智能技术的探索,三个特定的领域引起了很多关注:计算机视觉、自然语言应用和语音技术。世界知识产权局(WIPO)最近的一份报告发现,这三个领域的专利占了人工智能相关专利的大部分:计算机视觉占49%,自然语言处理(NLP)占14%,语音技术占13%。

企业里有很多非结构化和半结构化的文本数据,而很多公司已经拥有了 NLP 和文本分析的经验。虽然比较少的公司拥有收集和存储图像或视频的基础设施,但计算机视觉是许多公司开始探索的领域。深度学习和其他技术的兴起促使初创公司商业化了一些计算机视觉的应用,包括安防和合规、媒体和广告以及内容生成。

一些企业也在探索话音和语音的应用。[……]

继续阅读

Spark模型在Uber机器学习平台应用

Michelangelo 是 Uber 的机器学习(ML)平台,可以训练并服务于整个公司范围内生产环境中的数千种模型。该平台被设计成了一个端到端的工作流,目前支持经典的机器学习、时间序列预测和深度学习模型,可以涵盖大量的用例,从 生成市场预测、响应客户支持工单 到 准确计算预计到达时间(EAT) 以及使用自然语言处理(NLP)模型在驾驶员 App 中提供 一键式聊天功能。

大多数 Michelangelo 模型都是基于 Apache Spark MLlib 的,这是一个可伸缩的 Apache Spark 机器学习库。为了处理高 QPS 的在线服务,Michelangelo 最初仅通过内部[……]

继续阅读

Joshua Gordon《TensorFlow 2.0讲解》PPT

Tensorflow2.0 对于新手来说更为易用,而对于老手来说,功能更为强大,Josh Gordon 为我们介绍了TensorFlow2.0  的一些新的特征与使用技巧。

在构建模型方面,针对不同的使用人群,TensorFlow2.0 提供了不同层面的 API,针对刚接触 TensorFlow 的新手,提供了Sequential API, 针对工程师,开放了 FunctionalAPI 与 build-in 层,针对有更高需求的工程师,开放了 FunctionalAPI 与可定制的层,评估指标,损失函数等,而针对科研工作者,开放了 Subclassing,可以定制一切函数。

在训[……]

继续阅读

《美团机器学习实践》下载

美团作为国内 O2O 领域领 先的服务平台,结合自身的业务场景和数据,积极进行了人工智能领域的应用探索。在美团的搜索、推荐、计算广告、风控、图像处理等领域,相关的人工智能技术得到广泛的应用。本书包括通用流程、数据挖掘、搜索和推荐、计算广告、深度学习以及算法工程 6 大部分内容,全面介绍了美团在多个重要方面对机器学习的应用。

本书非常适合有一定机器学习基础的工程技术人员和在校大学生学习和阅读。通过本书,有经验的算法工程师可以了解美团在这方面的做法,在校大学生可以学习机器学习算法如何在具体的业务场景中落地。

下载:https://pan.baidu.com/s/1NC2aov1iszD[……]

继续阅读

Google 发布两个全新的自然语言对话数据集

如今的智能助理功能十分强大,被寄希望于完成多类任务并对不同主题的请求返回个性化结果,例如获取上映电影列表、预订餐厅和做计划旅行等。

然而,尽管智能助理近年来已取得巨大进步,但依旧未能达到人类的理解力水平。

这在一定程度上是由于我们缺乏优质训练数据,无法将人们的需求和偏好准确的反映给智能助理。系统的局限性导致在理解人类话语时会有偏差,我们为了让智能助理能够理解,不得不调整自己的措辞。换言之,现今智能助理的对话仍旧十分简单,远未达到人类理解所需的对话复杂度。

为解决该问题,Google 发布 Coached Conversational Preference Elicitatio[……]

继续阅读