Spark 玩转 TensorFlow 2.0

大数据深度学习逐步成为研究的主流趋势。这是《30 天吃掉那只 TensorFlow2.0》里面的其中一篇,介绍在 Spark 中调用训练好的 TensorFlow 模型进行预测的方法。本篇文章通过 TensorFlow for Java 在 Spark 中调用训练好的 TensorFlow 模型。利用 Spark 的分布式计算能力,从而可以让训练好的 TensorFlow 模型在成百上千的机器上分布式并行执行模型推断。

本案例以 TensorFlow 2.0 的 tf.keras 接口训练的线性模型为例进行演示。在本例基础上稍作修改则可以用 Spark 调用训练好的各种复杂的神经网络模型[……]

继续阅读

《Spark 框架实战》课程

Spark 是当前大数据行业内的事实标准,是由 UC Berkeley AMP lab (加州大学伯克利的 AMP 实验室)开源的类 Hadoop MapReduce 的通用并行框架,Spark 拥有 Hadoop MapReduce 所具有的优点,但不同于 MapReduce 的是 Job 中间结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 算法。Spark  是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,[……]

继续阅读

Spark模型在Uber机器学习平台应用

Michelangelo 是 Uber 的机器学习(ML)平台,可以训练并服务于整个公司范围内生产环境中的数千种模型。该平台被设计成了一个端到端的工作流,目前支持经典的机器学习、时间序列预测和深度学习模型,可以涵盖大量的用例,从 生成市场预测、响应客户支持工单 到 准确计算预计到达时间(EAT) 以及使用自然语言处理(NLP)模型在驾驶员 App 中提供 一键式聊天功能。

大多数 Michelangelo 模型都是基于 Apache Spark MLlib 的,这是一个可伸缩的 Apache Spark 机器学习库。为了处理高 QPS 的在线服务,Michelangelo 最初仅通过内部[……]

继续阅读

Spark 团队开源全流程机器学习平台:MLflow

Spark 和 Mesos 的核心作者兼 Databrick 首席技术专家 Matei Zaharia 宣布推出开源机器学习平台 MLflow,这是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台,旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。Matei 表示,研究工作主要围绕着 ——

如何为开发者提供类似谷歌 TFX、Facebook FBLearner Flow 等平台类似的好处,但是要以开放的方式——不仅在开源的意义上开放,而且是可以使用任何工具和算法的意义上开放

的想法展开。

每个做过机器学习开发的人都知道机器学习的复杂性,除了软件[……]

继续阅读

机器学习库选型

选择一个机器学习(ML)库来解决预测问题,是个说起来容易做起来难的事情 —— 可选择性太多了。每一个库对于它擅长的特定问题都有着良好的特性与优势。 即使对于在机器学习和数据科学领域具有相当经验的人来说,逐个检查所有不同的方案也是一种煎熬。Mayukh Bhaowal —— Salesforce Einstein 的产品管理总监,负责自动化机器学习;向我们分享了关于机器学习库的最重要的五个特征,科研工作者可以在决定使用哪个库时进行参考。

1.编程模式

大多数机器学习库,在高级设计模式中分为两个模式:符号式(Symbolic)和命令式(Imperative)。

大数据企业级仿真科研教学实践环境

大数据企业级仿真科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的企业级大数据项目开发综合环境,可供大数据专业学生或项目开发小组完成大数据全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装包含:系统环境,功能连接中间件,应用数据库,SQL 结构化大数据数据库,NoSQL 非结构化数据库,教学用示例数据资源,以及面向专业类开发,管理,调优等功能组件及应用软件,满足相关教学与实验所需的应用场景。完整的大数据生态部件包括: