企业数据科学成熟度模型评估之4

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。

数据科学如何轻松地部署产品,投入生产,以满足及时的业务目标?

数据科学期望惊人的见解和预测将改变业务并使企业达到新的绩效水平。然而,数据科学项目往往无法『升空』,导致企业的重大机会成本。数据科学家可以产生具有高精度的预测模型,然而如果这些模型没有有效地投入生产,即部署,则不能实现期望的收益。

在本次讨论中似乎相关的『部署』的更一般定义是 ——

将资源纳入有效行为的行动。

这种情况下的资源是指数据科学工作的产品,如机器学习模型,可视化,统计分析等。有效的行动是对提供商业利益的方式提供这些资源:交互式仪表板中提供的及时见解,影响哪些对客户,员工,资产等采取的行动的预测结果。

对于一般的数据科学,特别是机器学习,大多数部署机制在各个项目中是相同的。然而企业经常发现个别项目重新发明部署基础架构,需要恢复逻辑以及缺少严格的测试。利用提供部署管道的工具可以大大降低部署数据科学项目的开销和风险。

和以前一样,我们将讨论『部署』维度的 5 个成熟度等级中的每一个:

第1级:数据科学结果的范围有限,因此提供有限的商业价值。

在 1 级企业中,数据科学项目的结果通常采用幻灯片演示或文本报告中记录的见解形式呈现。数据分析,可视化甚至预测模型可以为人类决策提供指导,但这些结果必须在每个项目的基础上手动传达。

第 2 级:生产模型部署被视为有价值,但通常涉及为每个项目重新构建基础架构。

在2级企业中,可以在一线应用程序和系统中利用机器学习模型的认识得以自动实现。一些见解可以明确地编码到应用程序或仪表板逻辑中,但是,模型创建和部署之间的时间可以显着影响模型的准确性。当用于模型构建的数据模式与用于评分的当前数据不同时,会发生部署的延迟。此外,为了更容易地与现有应用程序或仪表板集成,手动编码(例如,用 C,Java 或甚至 SQL 中进行评分的预测模型系数)需要开发人员的大量时间,并且可能导致编码错误。只有严格的代码审查和测试才能揭示其中的错误。因此,企业会产生数据科学项目的成本,但却没有充分实现潜在的项目效益。

第 3 级:企业开始提供并利用简化的自动化模型部署工具,包括开源软件和环境。

随着更多的数据科学项目的开展,3 级企业意识到一次性部署方法浪费了宝贵的开发资源,导致部署延迟,降低了模型的有效性,并增加了项目风险。在当今支持互联网的世界中,数据模式(例如客户偏好)可以在一夜之间发生变化,要求企业更灵活地使用最新数据构建,测试和部署模型。第3级的企业开始利用提供所需基础架构的工具来支持简化和自动化的模型部署。

第 4 级:企业系统的异构性增加需要跨平台模型部署,并且越来越需要将模型合并到流数据应用程序中。

Level 4 企业结合了数据库,Hadoop,Spark 和其他用于管理数据和计算的平台。企业越来越需要在一个环境中生成的模型和脚本部署到另一个环境中。这增加了对能够导出模型以便在评分引擎库中使用的工具的需求,该评分引擎库可以轻松集成到应用程序中。4 级企业在开始使用涉及快速数据的数据科学结果时,寻求能够在实时或流分析情况下促进脚本和模型部署的工具。

第 5 级:企业已经实现了跨异构环境即时数据科学工作产品(重新)部署的好处。

5 级企业采用了一套标准工具来支持跨所有必要环境部署数据科学工作产品。在一个环境中创建的机器学习模型和脚本可以立即以最小的延迟进行部署和刷新(重新部署)。

数据科学成熟度模型(DSMM)系列的这一部分包含我们之前提到的所有维度和等级的汇总表。将数据科学作为核心竞争力的企业可能希望评估他们当前处于每个维度的哪个水平。在某些情况下,企业可能跨越多个级别。作为下一步,企业可以使用这种成熟度模型来确定他们每个维度中的所渴望实现的级别,当然我们也期待技术的创新能设计出新的级别 6。

下载:企业数据科学成熟度模型评估表

企业数据科学成熟度模型评估之3

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。

这些数据工具是否可以扩展和执行?数据探索,数据准备,建模,模型评分和部署?随着数据,数据科学项目和数据科学团队的发展,企业是否能够充分支持这些?术语『可扩展性』可以定义为 ——

系统,网络或流程处理越来越多的工作的能力,或者可以扩大以适应这种增长的潜力。

数据科学的可扩展性需要同时反映硬件和软件方面,以及人员和流程各个方面。这包括几个因素:数据量(行数,列数和总字节数),算法设计和实现(并行,分布式,内存高效),用于数据准备和模型构建和评分,硬件(RAM,CPU,GPU,存储),数据科学产品的生产率,数据科学参与者和项目的数量,以及工作流程的复杂性。

和以前一样,我们将讨论『可扩展性』维度的 5 个成熟度等级中的每一个:

第 1 级:数据量通常『很小』,受桌面端规模的硬件和工具限制,个人使用简单的工作流程进行分析。

1 级企业对可以适合单机内存处理的数据进行分析,通常在桌面端硬件上完成,并可能使用开源工具。在级别 1,数据量使得从平面文件加载数据或从数据库以编程方式加载数据不会引入有延迟的问题。同时就存储器消耗或利用多个 CPU 的能力而言的算法效率不是特别重要的问题。

第 2 级:数据科学项目具有更高的复杂性并可以利用更大的数据量。

在 2 级企业中,数据科学参与者正在开展更复杂的项目,同时需要更多的数据。由于数据移动,数据量的这种增加引入了越来越难以忍受的延迟问题,并且突出了低效的算法不充分利用硬件资源的困难。更频繁地生产更多数据科学工作产品的需求也对现有硬件资源提出更高的要求。2 级企业开始探索可扩展的工具,用于在数据驻留的地点进行直接处理,而不是依赖于数据移动,或者增强开源工具和软件包使用的工具。此时有的数据科学家采用数据采样来解决工具限制问题。

第 3 级:各个小组采用各种可扩展的数据科学工具,为数据科学家的使用提供更多的硬件资源。

3 级企业正在通过采用最大限度减少数据移动造成的延迟的工具,采用并行分布式算法实现以及提供利用开源工具的基础架构来解决其在第 2 级遇到的数据科学增长的难题。这些新工具使数据科学家能够在其分析中使用更多所需的数据,但是,整个企业中没有标准的工具套件,并且各种工具不能促进协作。此时可用的硬件资源(内部部署或云)的增加可以解决更大,更复杂的数据科学问题,从而为数据科学团队带来显着的生产力提升。

第 4 级:企业标准化可扩展数据科学工具的集成套件,并为开发和生产的数据科学项目提供足够的硬件能力。

通过探索和测试驱动各种数据科学工具,Level 4 企业标准化了一套可扩展的工具,使数据科学参与者能够实现全面的数据科学项目。特别是数据科学家拥有足够的硬件资源(内部部署或云端)。

第 5 级:数据科学家可以通过高度可扩展的算法和基础设施按需访问内部和云中的弹性计算资源。

5 级企业专注于为数据科学家提供更具弹性的计算资源。随着数据量的增加,数据科学项目受益于能够快速,轻松地增加/减少的计算资源,从而加快数据探索,数据准备,机器学习模型培训和数据评分 – 无论是针对单个模型还是涉及大规模的预测建模。弹性计算资源可以消除为最高峰值时的需求提供专用资源的需要。此时云端的解决方案可以提供更大的优势,并且满足法规或数据隐私要求。可扩展算法和基础架构与弹性计算资源的结合使企业能够在最小化成本的同时满足时间敏感的业务目标。

数据科学资产如何管理和控制?

资产,通常既是有形的,但有时也是无形的有价值的东西。

在本次讨论中,我们将数据科学工作产品视为资产,并可将『资产管理』定义为 ——

任何监控和维护实体或组织价值的系统。

正如我们在本系列文章前面介绍的那样,工作产品包括,如,原始数据和相应的转换,数据可视化,要求和设计规范,直接或在网络中编写为 R / Python / SQL /其他脚本的代码 – 基于 Notebook 的内容(例如,Zeppelin,Jupyter),预测模型,虚拟机/容器等等。在这种情况下,资产管理应涵盖整个资产生命周期 – 从创建到退休。在整个生命周期中,必须解决对资产存储/备份/恢复,基于元数据的搜索和检索,安全性(例如,基于特权的访问控制,可审计性),版本控制和沿袭的需求。具体到数据科学是对模型管理的需求,其包括例如模型生命周期,治理,可重复性,监视和报告。

和以前一样,我们将讨论『资产管理』维度的5个成熟度等级中的每一个:

第 1 级:由个人数据科学参与者拥有,组织和维护的分析工作产品。

一级企业的数据科学参与者基本上是围绕采取临时的资产管理方法。玩家负责维护他们的数据科学工作产品,通常是在他们的本地机器上,这些产品可能会也可能不会备份或安全控制。资产损失和无法重现结果并不罕见。在整个企业中,数据科学工作产品被『隐藏』在单个机器上,没有有效的搜索方式。

第 2 级:正在进行的初步工作,以提供数据科学工作产品的安全性,备份和恢复。

2 级企业认识到管理数据科学工作产品的必要性。这通常从基于组织的存储库开始,这些存储库为存储提供备份和恢复以减少资产损失,以及控制访问的安全性。

第 3 级:系统地解决数据科学工作产品治理问题。

3 级企业开始将数据科学工作产品视为重要的企业资产。因此,引入了工具和程序来集中管理资产的整个生命周期。随着企业利用机器学习模型扩展其数据科学工作,对模型管理的需求也获得了可见性。确定使用哪些数据和流程来生成数据科学工作产品的需求正在获得认可,正在采取措施明确地回答来解决其中的基本问题,例如,这个结果是基于什么?

第 4 级:数据科学工作产品治理在企业层面牢固建立,并增加对模型管理的支持。

4 级企业采用了数据科学工作产品治理的最佳实践。数据科学参与者以及整个企业通过能够轻松定位,执行,复制和增强项目内容来提高生产力。 类似『这个结果是如何产生的以及通过什么数据?』的问题很容易得到回答。

第 5 级:对所有数据科学工作产品进行系统管理,全面支持模型管理。

通过引入支持模型管理的工具和程序,5 级企业超越了 4 级企业。在部署数据科学项目时,会对其结果进行全面监控,并报告向企业提供的价值。这些结果被纳入项目形成闭环 – 确保数据科学项目继续根据当前和为相关数据和趋势提供价值。

企业内部使用哪些工具进行数据科学?数据科学家能否结合使用开源工具,高性能和可扩展的生产基础设施质量如何?

支持数据科学的工具非常广泛,从开源到专有,关系数据库到大数据平台,从简单的分析到复杂的机器学习。工具可以支持隔离的活动或高度协作,并通过完整的模型管理实现从小到大不同规模的预测建模。某些工具和算法实现对于小型甚至中等大小的数据表现良好,但在呈现较大数据量时会出现失败或变得不可用。为此需要特殊的并行分布式技术来实现,并利用多节点/处理器和机器集群。

很少有单一工具可以提供所有必需的功能 —— 通常采用商业和开源工具的混搭的方式。但是企业需要对所采用的工具提供必要的商业支持。因此非常有必要使用能对开源工具集成并能提供对开源工具进行数据和任务并行执行的支持能力以及易于部署的企业级工具。

和以前一样,我们将讨论『工具』维度的 5 个成熟度级别中的每一个:

第 1 级:不可扩展的工具,主要用于桌面计算机上的单一的隔离数据进行分析。

1 级数据科学参与者使用传统的桌面工具进行数据分析,严重依赖基于电子表格的工具以及用于分析和可视化的各种开源分析工具。

第 2 级:企业通过数据库管理系统管理数据,并依赖于广泛的开源库以及专门的商业工具。

2 级企业,更加重视数据管理,引入关系数据库管理软件工具。数据科学项目也受益于更广泛的开源软件包生态系统,用于高级数据探索,统计分析,可视化和预测分析/机器学习。但是在第 2 级,商业工具和开源工具之间几乎没有集成,性能和可扩展性是数据科学项目遇到的一个大问题。

第 3 级:企业寻求可扩展的工具来支持涉及大量数据的数据科学项目。

3 级企业的数据科学项目受到现有软件和环境的性能和可扩展性的阻碍。通过一系列可扩展的机器学习算法和技术,评估和获取商业化的和开源的工具,以补充开源技术并促进生产部署。数据科学公司可能会开始探索大数据平台,以解决大数据量,可扩展性和降低成本的需求。同时也会审核基于云的工具。随着数据科学项目越来越复杂,涉及更大的团队工作,支持协作的工具成为公认的需求。

第 4 级:企业将满足数据科学项目目标的工具套件标准化。

4 级企业了解数据科学参与者和项目的需求,以实现业务目标。提高生产力需要可扩展的工具,以支持协作并处理来自各种来源的数据。自动化和集成在提高生产力方面发挥着重要作用,因此避免范式转换和自动化数据探索,数据准备,机器学习以及图形和空间分析任务的工具特别有价值。已采用的工具可在多个平台上使用或运行,包括内部部署和云端。由于机器学习模型已成为数据科学项目的焦点,所采用的工具必须支持完整的模型管理。

第 5 级:企业定期评估最先进的算法,方法和工具,以提高解决方案的准确性,见解和性能,以及数据科学家的工作效率。

5 级企业优化其数据科学工具环境。了解了 4 级有效数据科学项目和数据科学播放器生产力所需的内容后,企业与工具提供商合作,进一步增强这些工具以实现业务目标。

下载:企业数据科学成熟度模型评估表

企业数据科学成熟度模型评估之2

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。

数据科学的企业方法论是什么呢?

最常被引用的『数据挖掘』方法 CRISP-DM 是数据科学的一个关键要素。但是,数据科学的广度和发展可能需要超越 CRISP-DM 引入的传统阶段:业务理解,数据理解,数据准备,建模,评估和部署。 实际上,结果反馈循环或扩展数据感知/访问阶段的价值可能是有用的。此外涉及数据科学项目参与者和工作产品的企业特定工作流程可能是提高生产率和衍生价值所必需的过程和方法。

和以前一样,我们将讨论『方法论』维度的 5 个成熟度等级中的每一个:

第 1 级:数据分析侧重于使用商业智能和数据可视化工具的临时方法。

对于一级企业,数据分析师和其他参与者通常不遵循既定的方法,而是依赖于他们的经验,技能和偏好。主要是通过仪表板,报告实现商业智能和数据可视化,并依赖于传统的方式进行演绎查询。

第 2 级:数据分析扩展到包括采用解决业务问题的机器学习和预测分析的方法,但仍使用临时方法。

与 1 级一样,2 级企业通常不遵循既定的方法,而是依赖于玩家的经验,技能和偏好。但是,二级企业补充了传统角色,例如数据分析师,他们为数据科学家提供商业智能和数据可视化,他们引入了更先进的数据科学技术,如机器学习和预测分析。随着数据科学家的引入,临时数据科学“方法论”得到了更多隐含的增强使用。

第 3 级:各个组织开始定义并定期应用数据科学方法。

3 级企业处于试验阶段,各个组织开始定义自己的方法实践或利用现有的方法实践。目标包括:在控制风险的同时提高数据科学项目的生产率,一致性和可重复性。但是数据科学项目可能会或可能不会有效地跟踪部署的模型结果的性能。

第 4 级:为数据科学项目建立的基础数据科学方法最佳实践。

4 级企业通过在整个企业中建立方法最佳实践,从 3 级的进展为基础。这些最佳实践源于组织实验或从现有方法中得来。通过建立最佳实践,企业可以提高数据科学项目的生产率,一致性和可重复性,同时降低失败的风险。

第 5 级:整个企业正式化数据科学方法的最佳实践。

在第 4 级建立了数据科学的最佳实践后,5 级企业正式确定了数据科学项目的其他关键方面,包括项目规划,需求收集/规范和设计,以及实施,部署和项目评估。

数据科学家可以轻松地了解哪些企业数据资源?一般而言,『意识』一词可以定义为 ——

拥有知识,知觉的状态或条件。

对于数据感知,我们可能会将此定义细化为:

了解企业中存在的数据并了解其内容。

企业通常在组织和部门之间拥有许多数据存储库。数据可以存在于数据库,平面文件,电子表格以及其他各种硬件,操作系统和文件系统中。此外,数据孤岛造成企业的一部分人完全不知道另一部分数据的存在,更不用说数据的含义了。

跨企业的数据感知使数据科学参与者,尤其是数据科学家,能够从元数据的角度浏览和理解数据。这样的元数据可以包括例如表和各列的文本描述,关键摘要统计,数据质量度量等。数据意识对于提高生产力至关重要,同时也是对数据资产进行清点并使企业转向『单一版本的事实』起到至关重要的作用。

和以前一样,我们将讨论『数据意识』维度的 5 个 成熟度等级中的每一个:

第 1 级:数据用户没有系统的方法来了解企业中可用的数据资产。

在理解整个企业中可能存在的数据资源时,1 级企业通常处于黑暗中。数据可以存储在员工计算机上的电子表格或平面文件中,也可以存储在部门或特定于应用程序的数据库中。没有数据格局的地图可以帮助查找感兴趣的数据,而且,企业还没有意识到需要这样做。

第 2 级:数据分析师和数据科学家通过『关键人物』寻求其他数据源。

2 级企业已『唤醒』了寻找正确数据的需求和好处。随着数据分析师和数据科学家采用更具分析意义的项目,数据搜索将在个人层面上进行 – 单独联系数据所有者或企业内部的其他人,以了解存在哪些数据。当然此时试图了解存在哪些数据,如何解释数据及其质量,会浪费大量时间。

第 3 级:对现有企业数据资源进行目录化,并评估其质量和效用,以解决业务问题。

3 级企业认为有必要让数据科学参与者更容易找到数据,并对解决业务问题的质量更有信心。特殊的元数据目录开始出现,这使得更容易理解可用的数据,但是,这些目录是非标准的,不是集成的,并且分散在整个企业中。

第 4 级:Enterprise 引入了元数据管理工具。

4 级企业通过引入元数据管理工具构建了第 3 级的进展,数据科学家和其他人可以发现可用于解决关键业务问题的数据资源。由于企业刚刚开始认真对待元数据,企业内的不同部门或组织可能会使用不同的工具。虽然数据科学家有所改进,但各种工具的元数据模型并未集成,因此可能需要咨询多种工具来完成。

第 5 级:企业标准化元数据管理工具,并将其用于所有数据资产制度化。

5 级企业完全接受了集成元数据的价值,并通过有效的工具促进了元数据的维护和组织。所有数据资产都通过完整的元数据描述进行质量和实用性策划,以实现整个企业的高效数据识别和发现。数据科学家的生产力和项目质量随着他们现在可以轻松找到可用的企业数据而增加。

数据分析师和数据科学家如何请求和访问数据?如何控制,管理和监控数据的访问?当我们考虑『数据访问』时,其中的定义指的是 ——

与存储,检索或处理数据库或其他存储库中的数据相关的软件和活动

通常与授权相关联 ,包括允许访问的内容 ,审计谁,何时,何地访问过什么。 有时候数据访问可以在很少或完全没有控制的情况发生,比如当访问某人没有加密的 U 盘时。或者通过安全数据库认证和计算机网络认证来进行严格的访问控制。 数据访问不仅考虑到用户方,还考虑了管理员有效管理数据访问生命周期的能力 – 从初始请求到撤销权限和使用后数据清理。

和以前一样,我们将讨论『数据访问』维度的 5 个成熟度等级中的每一个:

级别 1:数据分析师通常通过从 IT 或其他来源直接获得的平面文件来访问数据。

一级企业的数据科学公司使用历史上被称为『sneakernet』的东西。如果您需要数据,直接找到数据所有者,通过 U 盘或移动硬盘,然后将其加载到本地计算机上。当然,有时候这已经变成向数据所有者发送电子邮件请求,并通过电子邮件获取所请求的数据。以这种方式提供对数据的访问显然是不安全的。此外,在第一次尝试时不太可能获得『正确』的数据,因此数据所有者可能需要多次迭代操作。这会导致延迟,甚至使这些数据所有者非常烦恼。

第 2 级:通过直接程序数据库访问提供数据访问。

在二级企业中,sneakernet 被认为是不安全和低效的。此外,由于许多企业数据存储在数据库中,因此更容易启用授权和编程访问。通过方便的 API(ODBC,R 和 Python 包等)直接访问数据库,可以为数据科学参与者提供更多数据,从而缩短数据请求周期。但是,除了数据存储库/环境本身可能的任何处理(例如,关系数据库的 SQL)之外的任何处理仍然需要将数据提取到客户端机器,这可能具有安全隐患。

第 3 级:数据科学家已经对大容量数据进行了身份验证,可编程访问,但数据库管理员很难管理数据访问生命周期。

3 级企业正在经历数据访问增长的痛苦。数据科学家现在可以访问大量数据,并希望在他们的工作中使用更多数据。数据库管理员充斥着对广泛(多模式)和窄(单个表)数据访问的请求。确保个人获得适当的批准以访问他们所需的数据并可能实施数据屏蔽导致数据访问请求积压。3 级企业也开始用新的“大数据”存储库补充传统的结构化数据库数据,例如 HDFS,NoSQL 等。这些数据量更大的数据包括从社交媒体数据到传感器/图像/文本/语音的任何内容数据。

第 4 级:使用识别管理工具更严格地控制和管理数据访问。

虽然某些行业的企业(例如财务部门)将在不同程度上解决访问控制问题,但在更广泛地解决数据访问问题时,4 级企业了解用户身份的端到端生命周期管理的重要性,并开始引入工具加强安全性并酌情简化合规性。 4 级企业的目标是使数据科学参与者更容易请求和接收数据,同时还使管理员更容易管理,尤其是在引入更多大数据存储平台时。企业范围的自助服务访问请求 Web 应用程序可用于促进请求和授予数据访问。理想情况下,这将与用于数据感知的元数据管理工具集成。

第 5 级:数据访问沿袭跟踪可实现明确的数据推导和来源识别。

5 级企业已经对身份管理和审计进行了标准化,以支持安全的数据访问,现在关注的问题是『产生此结果的数据的来源是什么?』即使在利用企业数据仓库的企业中,数据仍可以复制到其他数据库,或利用各种网关提供对远程数据的透明访问。 5 级企业可以跟踪数据科学工作产品的衍生 – 它们的血统 – 与实际数据源的验证。

下载:企业数据科学成熟度模型评估表

企业数据科学成熟度模型评估之1

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践 —— 

企业数据科学『成熟度模型』

能帮助每个企业了解其当前和未来目标的状态。已经将数据科学作为核心竞争力的企业,以及那些刚入门的企业,往往会寻求提高数据科学这种能力的路线图。 数据科学成熟度模型是评估企业和指导数据科学必杀技的一种方式。

作为一种评估工具,该数据科学成熟度模型提供了一组与数据科学相关的维度,每个维度中有 5 个成熟度等级 – 1 级是最不成熟的,5 级是最成熟的。 以下是我对重要成熟度模型维度的看法,目标是为您提供评估工具和潜在的路线图:

  • 战略 – 企业的数据科学业务战略是什么?
  • 角色 – 企业中定义和开发了哪些工作角色来支持数据科学活动?
  • 协作 – 数据科学家如何与企业中的其他人(例如业务分析师,应用程序和分析系统开发人员)协作,以发展和交付数据科学工作产品?
  • 方法论 – 数据科学的企业方法是什么?
  • 数据意识 – 数据科学家可以轻松了解企业数据资源吗?
  • 数据访问 – 数据分析师和数据科学家如何请求和访问数据?您又是如何控制,管理和监控数据访问?
  • 可伸缩性 – 这些工具是否可以扩展和执行数据探索,数据准备,数据建模,模型评分和部署?
  • 资产管理 – 如何管理和控制数据科学资产?
  • 工具 – 企业内部使用哪些工具来实现数据科学目标?数据科学家能否利用开源工具与高性能和可扩展的云基础架构相结合?
  • 部署 – 数据科学如何轻松和快速地将产品投入生产以满足及时的业务目标?

成熟度模型中,第一个维度是『战略』:什么是数据科学的企业业务战略呢?战略可以定义为:

在不确定条件下实现一个或多个业务目标的高级计划。

在数据科学方面,目标可能包括做出更好的业务决策,创造新的发现,改善客户获取/保留/满意度,降低成本,优化流程等。根据可用数据的数量和质量以及数据的使用方式,企业面临的不确定程度可以显著降低或加剧。接下来,我们将讨论数据科学成熟度模型『战略』维度的 5 个级别:

第 1 级:企业没有应用数据科学的管理策略。

对于 1 级的企业来说,对数据科学的世界可能并不熟悉,但仍然有一定的数据。数据分析可能是企业日常活动的一部分,但没有总体管理策略或认识到数据是公司的资产。企业已经定义了目标,但数据支持这些目标的程度非常有限。

第 2 级:企业正在探索数据科学作为核心竞争力的价值。

2 级企业实现了数据的潜在价值,并利用该数据获得更大的业务优势。随着机器学习,人工智能和高级分析的所有宣传和实质落地,企业中的商业领袖正在研究科学数据可以提供的价值,并积极进行概念验证 – 认真探索数据科学作为核心业务能力。

第 3 级:企业将数据科学视为竞争优势的核心竞争力。

在完成概念验证后,3 级企业已致力于将数据科学作为核心竞争力及其带来的好处。正在进行系统性的努力,以便在该成熟度模型的其他方面增强数据科学能力。

第 4 级:企业采用数据驱动的决策方法。

一旦企业建立了数据科学的能力,4 级企业就有信心接受使用数据驱动的决策 – 用测量结果和预测分析/机器学习来支持或替代原本罗霍的业务本能。随着数据和技能的提升,业务领导者在做出关键业务决策时更有信心信任数据科学的结果。

第 5 级:数据被视为重要的公司资产 – 数据资本。

关于数据科学的最高级别的策略是对数据提供它应得的『崇敬』 – 将其视为有价值的公司资产 – 一种资本的形式存在。在第 5 级,企业分配足够的资源来开展数据科学项目,这些项目由适当的管理,维护,评估,安全和数据资产的增长以及人力资源支持,以系统地实现战略目标的落地。

定义在企业中支持数据科学活动的『角色』

角色可以被定义为:

一组在社会情境中由人们概念化的相互关联的行为,权利,义务,信仰和规范。

与大多数新业务领域一样,企业内的数据科学可以从添加新角色中获得受益。遵循『策略』维度,我们现在讨论『角色』维度的 5 个成熟度等级:

第 1 级:传统数据分析师使用推论技术探索和汇总数据。

1 级企业可能有专门负责数据分析的人员 – 数据分析员 – 并利用数据库管理员(DBA)或业务分析师的技能来提供商业智能。他们可能使用各种工具来支持相关的工作,例如,电子表格分析,数据可视化,仪表板,数据库查询语言等。处于这些角色的人通常使用演绎推理,因为他们通过制定特定的查询来回答特定的问题。

第 2 级:引入“数据科学家”角色和相应的技能组合,开始利用先进的归纳技术。

2 级企业认识到需要更复杂的分析,以及在数据科学方面受过培训的人。 这些数据科学家是目前备受推崇的人员,可以为企业带来更大的价值。数据科学家现在更多是大学硕士和博士学位的人才,甚至被认为是独角兽。即便如此,数据科学家可能具有不同的优势,包括对数据的准备/争论,编写代码,使用机器学习算法,使用有效的可视化将分析结果传达给技术和非技术受众。因此,给定的数据科学项目可能需要具有互补相关技能的数据科学家团队。2 级企业现在可以更自信地探索,开发和部署基于机器学习,人工智能,数据挖掘,预测分析和高级分析的解决方案。当然具体取决于使用哪些手段最能引起企业的共鸣。在第2级,数据科学家通常根据需要添加到各个部门或组织。

第 3 级:引入首席数据官(CDO)角色,以帮助管理作为公司资产的数据。

虽然不一定是纯粹的数据科学角色,但首席数据官角色对于以数据科学为重点的企业来说,即使不是关键,也是非常有益的。 CDO 负责企业范围内的数据资产治理和使用。随着在第 3 级引入这一角色,不仅数据科学被企业认真对待,而且数据科学项目的关键输入『数据』也是如此。

第 4 级:数据科学家职业道路在整个企业中编纂和标准化。

对于数据科学家在职位描述,技能和培训方面的角色,4 级企业努力使整个企业更加统一。在一些企业中,数据科学活动和/或数据科学家可以在共同或矩阵管理结构下组织在一起。

第 5 级:首席数据科学官(CDSO)角色介绍。

正如首席数据官角色有利于企业更认真地对待数据一样,5 级企业也认识到需要首席数据科学官。在此角色中,CDSO 负责监督,协调,评估和推荐数据科学项目以及帮助实现企业业务目标所需的工具和基础架构。

数据科学家如何和企业中的其他人相互协作?例如,业务分析师,应用程序和仪表板开发人员,来发展和交付数据科学工作产品呢?

数据科学项目通常涉及协作,我们将协作定义为:

两个或更多人或组织共同努力实现同一个目标。

对企业产生积极影响的成功数据科学项目通常需要多个人的参与,例如:数据科学家,数据/业务分析师,业务负责人,业务领域专家,应用程序/仪表板开发人员,数据库管理员和信息技术(IT)管理员。协作可以是非正式的或正式的,但是在更好的情况下,我们寻求支持,鼓励,监控和指导参与者之间更好的协作。

第 1 级:数据分析师经常在孤岛中工作,孤立地执行工作并在本地环境中存储数据和结果。

1 级企业经常遭受『孤岛效应』,企业不同部门的数据分析师孤立地工作,只关注他们可以访问的数据,回答他们部门或组织的问题。即使基本问题相同,在一个领域产生的结果可能与另一个领域的结果不一致。这些差异可能是由于使用不同数据或相同数据的不同版本,或采用不同的方法来达到给定结果。这些差异可以带来有趣的跨组织或企业范围的争论会议。

第 2 级:IT 和业务线组织之间存在更大的协作。

2 级企业寻求传统数据保管员(信息技术)与各种业务部门之间的更大合作。数据和结果的共享可能仍然是临时的,但更大的协作有助于识别数据以解决重要的业务问题并在组织或企业内传达结果。

第 3 级:认识到需要在数据科学项目的各个参与者之间加强合作。

随着数据科学家的引入以及更多地使用数据来解决业务问题的愿望,3 级企业认为需要在参与或受数据科学项目影响的各个参与者之间进行更多的协作。其中包括数据科学家,业务分析师,业务负责人和应用程序/仪表板开发人员等。协作采用数据科学工作产品的共享,修改和传递的形式。工作产品包括,例如,原始数据和转换,数据可视化图和图表,要求和设计规范,直接或基于网络的笔记本(例如,Zeppelin,Jupyter)编写为R / Python / SQL /其他脚本的代码和预测模型。可以使用具有版本控制的传统工具(例如源代码或对象存储库)等等。

第 4 级:广泛使用引入的工具,以便共享,修改,跟踪和传递数据科学工作产品。

4 级企业以 3 级的进展为基础,推出专门用于加强数据科学项目参与者之间协作的工具。这包括支持共享和修改工作产品,以及跟踪更改和工作流程。能够以无缝和受控的方式在定义的工作流程内交付工作产品是其中的关键。有时候企业内的不同组织可能会尝试各种工具,这些工具通常无法互操作。

第 5 级:在整个企业中引入标准化工具,以实现无缝协作。

虽然 4 级企业在加强协作方面取得了重大进展,但 5 级企业对工具进行了标准化,以促进数据科学项目参与者之间的跨企业协作。

下载:企业数据科学成熟度模型评估表

教学工具:迷你电影数据库

通常学习了 Python 入门课程之后,初学者会开始思考如何编写一个很酷的 Python 程序,来演示一些高级的语言能力,比如使用网页抓取或数据库操作。在《手把手搭建迷你 IMDB 数据库》教程(中文翻译)中,Tirthajyoti Sarkar 向我们展示了如何使用简单的 Python 库和其内置功能来获取网上的电影信息,并将它们存储在本地的 SQLite 数据库中,之后还可以查询电影数据并进行数据分析。我们可以将它看作是一个构建自己迷你 IMDB 数据库的项目!

这种类型的数据工程任务 —— 从网上收集数据并建立与数据库的关联;通常是数据分析项目的第一步。在做任何预测建模之前,你都需要掌握这一步骤。这一步的数据通常是凌乱且非结构化的,也就是说,没有能够帮你一步到位完成这些工作的方案或代码库。因此,你必须从网页上提取数据,检查它的结构,并构建你的代码,以便成功地抓取它。具体来说,这个演示程序将展示以下功能的用法:

通过在本地部署电影数据库,学生能更为贴近真实的业务需求的《数据库设计》逻辑,并基于该数据库实现高级机器学习,部署推荐系统,数据分析,算法模型及算子优化实践,并进一步完成端到端的网络大数据分析项目流程。

GitHub地址项目GitHub地址

商务智能数据可视化分析科研教学实践环境

工程实践系统环境 —— 商务智能数据可视化分析科研教学实践环境
工程实践系统环境 —— 商务智能数据可视化分析科研教学实践环境

商务智能数据可视化分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的商务智能与大数据可视化分析实战综合环境。以提升高校社会科学类专业学生数据素养,培养商业数据分析师,数据新闻记者,数字图书馆及知识库管理员为人才定位,可供高职类大数据技术与应用(610215)专业学生,及新闻传播,社会科学,经济管理,统计数理学院等非计算机专业学生或项目研究小组完成数据整理,商务数据智能分析,数据可视化运营,可视化机器学习与数据挖掘,业务预测,报表输出等全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装完整的数据采集,数据整理,机器学习,数据可视化分析平台,并提供超过 30 款直观,操作简单的数据工具,并配备专为商务智能优化数据源,帮助文科类专业或仅具备初级编程基础的师生,通过掌握高效先进的数据处理与分析工具,也能应用大数据发掘更大的价值。主要数据组件及工具包括:

    • Business Intelligence Optimized Data Sources – 商务智能优化数据源,覆盖:气候环境、宏观经济、娱乐行业、金融行业、人力资源、公共服务及共享经济行业、零售行业、社交网络行业、体育行业、商务智能、运输行业、医疗行业
    • CartoDB – 交互式地图制作工具
    • CrowData – 文档协作验证和数据发布工具,否则将很难或不可能通过自动工具(如OCR)获取
    • DJHandbook – 权威的数据新闻资源指南,全球超过15万学生,研究人员和数据新闻从业人员使用这些资源学习数据新闻制作,并且不断拓展新的技术工具
    • DocumentCloud – 比 Dropbox 更为实用的文档共享工具
    • E-commerce Data Acquisition Platform – 针对国内主流电商平台,实现商品信息采集、评论采集;为媒体行业提供数据源,实现自动化采集数据
    • Geojournalism – 数据新闻记者,设计师和开发人员工具箱,使用地理数据进入数据可视化世界
    • Gephi – 全球领先的互联网社区关系网络分析工具
    • Json Parser – 在线 JSON 数据编译解释器
    • kxcy-bd-viz – 跨象乘云™大数据可视化探索平台(简称:KXCY-BD-VIZ)
    • kxcy-ml-vp – 跨象乘云™可视编程机器学习平台(简称:KXCY-ML-VP)
    • Latlong – 在线地理位置信息查询器(经纬度/GPS参数)支持鼠标指针定位
    • libreoffice – 国际化的开源项目,自由免费的新一代办公软件
    • mapstarter – 支持 GeoJSON,TopoJSON,及 ESRI 图形格式,将地理数据文件转换为网络地图
    • Mozilla Firefox – 开源浏览器并提供大量数据分析插件
    • MySQL – 全球最大开源数据库
    • OnlineOCR – 光学字符识别(Optical Character Recognition, OCR)技术,可以识别扫描件或照片中的文字
    • Open Refine – 全球最受欢迎的数据与资料整理平台,
    • R 语言 – 最流行的统计语言,除了能清洗数据、统计分析,若有程序包 Rvest,还可通过公开数据门户(世界银行、欧盟统计局等机构)的 API 抽取数据。R 是处理数据的好手,在程序包 tidyr 和 dplyr 的帮助下,可以实现合并、设置子集、聚合等多个功能。另外,通过开放并及时更新的社区CRAN(The Comprehensive R Archive Network)统计算法包,能获得各数据科学领域与行业的最前沿的机器学习算法模型。
    • Rstudio – R 语言统计运算与数据可视化工作平台
    • Tabula – 解放PDF文件中锁定数据表的工具
    • TimelineJS – 新闻事件时间轴制作工具,支持超过40种语言
    • Web Scraper – 专门从网页中提取数据的工具,包括免费的 Google Chrome Web Scraper 扩展插件和基于云的 Web Scraper
    • 草料二维码 – 在线二维码生成器

商务智能数据化运营管理(60学时)

本课程面向数据科学与大数据应用专业建设,定位一线运维人员岗位需求实现人才培养规划。通过直观的可视化操作界面,先进的商务智能数据可视化分析平台,并穿插海量真实行业数据分析案例,实现业务逻辑与商务思维应用在大数据分析领域的结合,精准匹配行业需求并提升职业竞争能力。不但对于计算机专业学生,即便是经管学院,数理学院,乃至文史类专业学生都能利用商务智能数据可视化分析平台,实现对数据的精确分析。