2017年最佳机器学习开源项目(30项 – 上篇)

Mybridge AI 公司对比了 GitHub 上近 8,800 个开源机器学习项目,并挑选了其中最好的 30 个,在 Medium 上发布。这是一个具有很强竞争力的列表,其中包含 2017 年 1 月 – 12 月份开源的各类优秀机器学习库、数据集和应用;通过流行度、参与度和新鲜程度来对它们进行评级,它们的 GitHub 平均评星总数达到 3,558 个。一个参考值是 TensorFlow 作为全球最受欢迎的深度学习开发框架,目前在 GitHub 上的评星为已接近 85,000个。开源项目对于数据科学家而言非常有意义,可以通过阅读源代码,在前人的基础上构建更加强大的项目。现在,科研机构与企业工程人员都可以根据这份列表,尝试一下这些最佳项目。

第1位:FastText

Facebook 发布的快速文本表示及分类库,用于高效学习词语表达与句子分类。另外,列表中还提供了一个以及基于 FastText 的多语言无监督与监督词嵌入的项目 Muse

扩展阅读:Facebook 发布新版 fastText:拓展至移动端,加入教程

GitHub地址项目GitHub地址

第2位:Deep-photo-styletransfer

康奈尔大学 Fujun Luan 论文《Deep Photo Style Transfer》的代码与数据。

GitHub地址项目GitHub地址

第3位:face recognition

世界上最简单的人脸识别库,从 Python 或命令行中识别和操作人脸。使用基于 dlib 最先进的人脸识别技术构建而成,并具有深度学习功能。该模型在“野外面部标记”基准中的准确率为惊人的:99.38%。同时,也提供了一个简单的 face_recognition 命令行工具,让你用命令行从图像文件夹中,进行面部识别。

扩展阅读:基于 Python 的开源人脸识别库:离线识别率高达99.38%

GitHub地址项目GitHub地址

第4位:Magenta

Magenta 是来自 Google Brain 团队的一个机器智能音乐与艺术生成器项目。

我们可以使用机器学习来创造引人注目的艺术和音乐吗?

如果可以,怎么做? 如果没有,为什么不尝试一下呢? Magenta 使用 TensorFlow 开发,并提供公开的模型,工具,演示,教程博客帖子以及技术文章。

扩展阅读:谷歌 Magenta 项目是如何教神经网络编写音乐的?

GitHub地址项目GitHub地址

第5位:Sonnet

Sonnet 是一个建立在 TensorFlow 之上的库,用于构建复杂的神经网络,由 DeepMind 团队发布。

扩展阅读:基于 TensorFlow 和 Sonnet,DeepMind 开源可微神经计算机实现包

GitHub地址项目GitHub地址

第6位:deeplearn.js

来自 Google Brain 团队 Nikhil Thorat 的网页端硬件加速机器学习库。一个用于机器智能的开源硬件加速 JavaScript 库。deeplearn.js 将高性能机器学习构建块带入网络,允许用户在浏览器中训练神经网络,或在推理模式下运行预训练模型。项目提供了两个API,即时执行模型和一个镜像 TensorFlow API 的延迟执行模型。deeplearn.js 最初由 Google Brain PAIR 团队开发,为浏览器构建功能强大的交互式机器学习工具,但它可用于从教育,模型理解到艺术项目等各种应用。

扩展阅读:谷歌开源 DeepLearn.js:可在网页上实现硬件加速的机器学习

GitHub地址项目GitHub地址

第7位:Fast Style Transfer

TensorFlow 快速风格转换工具,在几分之一秒内将着名的绘画作品添加到任何照片甚至视频当中。

GitHub地址项目GitHub地址

第8位:Pysc2

基于 Python 的星际争霸 II 机器学习环境,这是 DeepMind 和暴雪合作开发星际争霸 II 到强化学习研究的一个丰富环境,为强化学习代理提供了与星际争霸 II 进行交互的界面,获得观察结果并发送动作。

GitHub地址项目GitHub地址

第9位:AirSim

基于虚幻引擎的开源自动驾驶模拟器,可用于无人机,汽车等虚拟引擎上的模拟器。它是开源的,跨平台的,支持 PX4 等流行的飞行控制器硬件,用于物理和视觉逼真的模拟。它是作为一个虚幻插件开发的,可以简单地放入任何你想要的虚幻环境中。微软的目标,是开发 AirSim 作为人工智能研究的平台,以实验自主车辆的深度学习,计算机视觉和强化学习算法。为此,AirSim 还以平台独立的方式公开 API 来检索数据和控制车辆。

GitHub地址项目GitHub地址

第10位:Facets

来自 Google Brain 团队的机器学习数据集可视化工具,Facets 项目包含两个用于理解和分析机器学习数据集的可视化子项目:Facets Overview 和 Facets Dive。可视化被实现为 Polymer Web 组件,由 Typescript 代码支持,可以很容易地嵌入到 Jupyter Notebooks 或网页中。

扩展阅读:谷歌开源机器学习可视化工具 Facets:从全新角度观察数据

GitHub地址项目GitHub地址