企业数据科学成熟度模型评估之3

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。

这些数据工具是否可以扩展和执行?数据探索,数据准备,建模,模型评分和部署?随着数据,数据科学项目和数据科学团队的发展,企业是否能够充分支持这些?术语『可扩展性』可以定义为 ——

系统,网络或流程处理越来越多的工作的能力,或者可以扩大以适应这种增长的潜力。

数据科学的可扩展性需要同时反映硬件和软件方面,以及人员和流程各个方面。这包括几个因素:数据量(行数,列数和总字节数),算法设计和实现(并行,分布式,内存高效),用于数据准备和模型构建和评分,硬件(RAM,CPU,GPU,存储),数据科学产品的生产率,数据科学参与者和项目的数量,以及工作流程的复杂性。

和以前一样,我们将讨论『可扩展性』维度的 5 个成熟度等级中的每一个:

第 1 级:数据量通常『很小』,受桌面端规模的硬件和工具限制,个人使用简单的工作流程进行分析。

1 级企业对可以适合单机内存处理的数据进行分析,通常在桌面端硬件上完成,并可能使用开源工具。在级别 1,数据量使得从平面文件加载数据或从数据库以编程方式加载数据不会引入有延迟的问题。同时就存储器消耗或利用多个 CPU 的能力而言的算法效率不是特别重要的问题。

第 2 级:数据科学项目具有更高的复杂性并可以利用更大的数据量。

在 2 级企业中,数据科学参与者正在开展更复杂的项目,同时需要更多的数据。由于数据移动,数据量的这种增加引入了越来越难以忍受的延迟问题,并且突出了低效的算法不充分利用硬件资源的困难。更频繁地生产更多数据科学工作产品的需求也对现有硬件资源提出更高的要求。2 级企业开始探索可扩展的工具,用于在数据驻留的地点进行直接处理,而不是依赖于数据移动,或者增强开源工具和软件包使用的工具。此时有的数据科学家采用数据采样来解决工具限制问题。

第 3 级:各个小组采用各种可扩展的数据科学工具,为数据科学家的使用提供更多的硬件资源。

3 级企业正在通过采用最大限度减少数据移动造成的延迟的工具,采用并行分布式算法实现以及提供利用开源工具的基础架构来解决其在第 2 级遇到的数据科学增长的难题。这些新工具使数据科学家能够在其分析中使用更多所需的数据,但是,整个企业中没有标准的工具套件,并且各种工具不能促进协作。此时可用的硬件资源(内部部署或云)的增加可以解决更大,更复杂的数据科学问题,从而为数据科学团队带来显着的生产力提升。

第 4 级:企业标准化可扩展数据科学工具的集成套件,并为开发和生产的数据科学项目提供足够的硬件能力。

通过探索和测试驱动各种数据科学工具,Level 4 企业标准化了一套可扩展的工具,使数据科学参与者能够实现全面的数据科学项目。特别是数据科学家拥有足够的硬件资源(内部部署或云端)。

第 5 级:数据科学家可以通过高度可扩展的算法和基础设施按需访问内部和云中的弹性计算资源。

5 级企业专注于为数据科学家提供更具弹性的计算资源。随着数据量的增加,数据科学项目受益于能够快速,轻松地增加/减少的计算资源,从而加快数据探索,数据准备,机器学习模型培训和数据评分 – 无论是针对单个模型还是涉及大规模的预测建模。弹性计算资源可以消除为最高峰值时的需求提供专用资源的需要。此时云端的解决方案可以提供更大的优势,并且满足法规或数据隐私要求。可扩展算法和基础架构与弹性计算资源的结合使企业能够在最小化成本的同时满足时间敏感的业务目标。

数据科学资产如何管理和控制?

资产,通常既是有形的,但有时也是无形的有价值的东西。

在本次讨论中,我们将数据科学工作产品视为资产,并可将『资产管理』定义为 ——

任何监控和维护实体或组织价值的系统。

正如我们在本系列文章前面介绍的那样,工作产品包括,如,原始数据和相应的转换,数据可视化,要求和设计规范,直接或在网络中编写为 R / Python / SQL /其他脚本的代码 – 基于 Notebook 的内容(例如,Zeppelin,Jupyter),预测模型,虚拟机/容器等等。在这种情况下,资产管理应涵盖整个资产生命周期 – 从创建到退休。在整个生命周期中,必须解决对资产存储/备份/恢复,基于元数据的搜索和检索,安全性(例如,基于特权的访问控制,可审计性),版本控制和沿袭的需求。具体到数据科学是对模型管理的需求,其包括例如模型生命周期,治理,可重复性,监视和报告。

和以前一样,我们将讨论『资产管理』维度的5个成熟度等级中的每一个:

第 1 级:由个人数据科学参与者拥有,组织和维护的分析工作产品。

一级企业的数据科学参与者基本上是围绕采取临时的资产管理方法。玩家负责维护他们的数据科学工作产品,通常是在他们的本地机器上,这些产品可能会也可能不会备份或安全控制。资产损失和无法重现结果并不罕见。在整个企业中,数据科学工作产品被『隐藏』在单个机器上,没有有效的搜索方式。

第 2 级:正在进行的初步工作,以提供数据科学工作产品的安全性,备份和恢复。

2 级企业认识到管理数据科学工作产品的必要性。这通常从基于组织的存储库开始,这些存储库为存储提供备份和恢复以减少资产损失,以及控制访问的安全性。

第 3 级:系统地解决数据科学工作产品治理问题。

3 级企业开始将数据科学工作产品视为重要的企业资产。因此,引入了工具和程序来集中管理资产的整个生命周期。随着企业利用机器学习模型扩展其数据科学工作,对模型管理的需求也获得了可见性。确定使用哪些数据和流程来生成数据科学工作产品的需求正在获得认可,正在采取措施明确地回答来解决其中的基本问题,例如,这个结果是基于什么?

第 4 级:数据科学工作产品治理在企业层面牢固建立,并增加对模型管理的支持。

4 级企业采用了数据科学工作产品治理的最佳实践。数据科学参与者以及整个企业通过能够轻松定位,执行,复制和增强项目内容来提高生产力。 类似『这个结果是如何产生的以及通过什么数据?』的问题很容易得到回答。

第 5 级:对所有数据科学工作产品进行系统管理,全面支持模型管理。

通过引入支持模型管理的工具和程序,5 级企业超越了 4 级企业。在部署数据科学项目时,会对其结果进行全面监控,并报告向企业提供的价值。这些结果被纳入项目形成闭环 – 确保数据科学项目继续根据当前和为相关数据和趋势提供价值。

企业内部使用哪些工具进行数据科学?数据科学家能否结合使用开源工具,高性能和可扩展的生产基础设施质量如何?

支持数据科学的工具非常广泛,从开源到专有,关系数据库到大数据平台,从简单的分析到复杂的机器学习。工具可以支持隔离的活动或高度协作,并通过完整的模型管理实现从小到大不同规模的预测建模。某些工具和算法实现对于小型甚至中等大小的数据表现良好,但在呈现较大数据量时会出现失败或变得不可用。为此需要特殊的并行分布式技术来实现,并利用多节点/处理器和机器集群。

很少有单一工具可以提供所有必需的功能 —— 通常采用商业和开源工具的混搭的方式。但是企业需要对所采用的工具提供必要的商业支持。因此非常有必要使用能对开源工具集成并能提供对开源工具进行数据和任务并行执行的支持能力以及易于部署的企业级工具。

和以前一样,我们将讨论『工具』维度的 5 个成熟度级别中的每一个:

第 1 级:不可扩展的工具,主要用于桌面计算机上的单一的隔离数据进行分析。

1 级数据科学参与者使用传统的桌面工具进行数据分析,严重依赖基于电子表格的工具以及用于分析和可视化的各种开源分析工具。

第 2 级:企业通过数据库管理系统管理数据,并依赖于广泛的开源库以及专门的商业工具。

2 级企业,更加重视数据管理,引入关系数据库管理软件工具。数据科学项目也受益于更广泛的开源软件包生态系统,用于高级数据探索,统计分析,可视化和预测分析/机器学习。但是在第 2 级,商业工具和开源工具之间几乎没有集成,性能和可扩展性是数据科学项目遇到的一个大问题。

第 3 级:企业寻求可扩展的工具来支持涉及大量数据的数据科学项目。

3 级企业的数据科学项目受到现有软件和环境的性能和可扩展性的阻碍。通过一系列可扩展的机器学习算法和技术,评估和获取商业化的和开源的工具,以补充开源技术并促进生产部署。数据科学公司可能会开始探索大数据平台,以解决大数据量,可扩展性和降低成本的需求。同时也会审核基于云的工具。随着数据科学项目越来越复杂,涉及更大的团队工作,支持协作的工具成为公认的需求。

第 4 级:企业将满足数据科学项目目标的工具套件标准化。

4 级企业了解数据科学参与者和项目的需求,以实现业务目标。提高生产力需要可扩展的工具,以支持协作并处理来自各种来源的数据。自动化和集成在提高生产力方面发挥着重要作用,因此避免范式转换和自动化数据探索,数据准备,机器学习以及图形和空间分析任务的工具特别有价值。已采用的工具可在多个平台上使用或运行,包括内部部署和云端。由于机器学习模型已成为数据科学项目的焦点,所采用的工具必须支持完整的模型管理。

第 5 级:企业定期评估最先进的算法,方法和工具,以提高解决方案的准确性,见解和性能,以及数据科学家的工作效率。

5 级企业优化其数据科学工具环境。了解了 4 级有效数据科学项目和数据科学播放器生产力所需的内容后,企业与工具提供商合作,进一步增强这些工具以实现业务目标。

下载:企业数据科学成熟度模型评估表