Spark 团队开源全流程机器学习平台:MLflow

Spark 和 Mesos 的核心作者兼 Databrick 首席技术专家 Matei Zaharia 宣布推出开源机器学习平台 MLflow,这是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台,旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。Matei 表示,研究工作主要围绕着 ——

如何为开发者提供类似谷歌 TFX、Facebook FBLearner Flow 等平台类似的好处,但是要以开放的方式——不仅在开源的意义上开放,而且是可以使用任何工具和算法的意义上开放

的想法展开。

每个做过机器学习开发的人都知道机器学习的复杂性,除了软件开发中常见的问题之外,机器学习还存在很多新的挑战。作为一家大数据解决方案公司,Databricks 与数百家使用机器学习的公司合作,所以能够清楚地了解他们的痛点,比如工具太过复杂、难以跟踪实验、难以重现结果、难以部署模型。由于这些挑战的存在,机器学习开发必须变得与传统软件开发一样强大、可预测和普及。为此,很多企业已经开始构建内部机器学习平台来管理机器学习生命周期。例如,Facebook、谷歌和优步分别构建了 FBLearner Flow、TFX 和 Michelangelo 来进行数据准备、模型训练和部署。但这些内部平台存在一定的局限性:典型的机器学习平台只支持一小部分内置算法或单个机器学习库,并且被绑定在公司内部的基础设施上。用户无法轻易地使用新的机器学习库,或与社区分享他们的工作成果。

Databricks 认为应该使用一种更好的方式来管理机器学习生命周期,于是他们推出了 MLflow,一个开源的机器学习平台。MLflow 的 alpha 版本包含了三个组件:

其中,MLflow 的跟踪组件支持记录和查询实验数据,如评估度量指标和参数。MLflow 的项目组件提供了可重复运行的简单包装格式。最后,MLflow 的模型组件提供了用于管理和部署模型的工具。

GitHub地址项目 GitHub 地址

机器学习与人工智能实战(90学时)

在如今这个处处以数据驱动的世界中,机器学习,深度学习,人工智能正变得越来越大众化。同时,在这三种技术中,人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,乃当今人工智能大爆炸的核心驱动。在大数据的爆发性增长背景下,当今的机器学习技术已经被广泛地应用于不同领域,如搜索引擎、机器人、无人驾驶汽车等。本课程面向初步接触深度学习与人工智能方向学生,基于极易上手入门的流行编程语言 Python,首先通过实用的案例介绍机器学习的基础知识,然后介绍一些稍微复杂的机器学习算法,例如:支持向量机、极端随机森林、隐马尔可夫模型、条件随机场、深度神经网络 …… 等。通过大量的实战案例,了解如何使用当前最火的 Python 编程语言,结合机器学习算法解决各类实际的业务问题。譬如:使用探索分类分析算法实现收入等级评估;使用无监督学习实现市场细分;使用隐马尔科夫模型实现语音识别 …… 等,并深刻掌握以下机器学习核心库的原理与应用:

基于可视化工作流的机器学习与分析预测(60学时)

了解并强化数据挖掘的基本概念,学习如何使用数据库内分析,实现预测分析功能。数据挖掘是图形化扩展工具,用于直接对数据库内数据进行业务分析。建立多种数据挖掘模型,通过将成熟的模型应用到新数据中,实现业务预测与分析洞察。通过SQL API自动对数据进行实时挖掘,无需数据迁移与复制,最大化实现数据安全。本课程通过描述基本的数据挖掘概念,是学生能准确描述预测分析的优势。理解数据挖掘的主要任务,描述数据挖掘业务流内的关键步骤。使用数据挖掘建立,改进,应用多种数据模型。通过项目实际训练,实现对各种业务需求类型的分析与洞察,包括:预测个体行为,价值预测,关联时间搜索。