企业数据科学成熟度模型评估之1

最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。

日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践 —— 

企业数据科学『成熟度模型』

能帮助每个企业了解其当前和未来目标的状态。已经将数据科学作为核心竞争力的企业,以及那些刚入门的企业,往往会寻求提高数据科学这种能力的路线图。 数据科学成熟度模型是评估企业和指导数据科学必杀技的一种方式。

作为一种评估工具,该数据科学成熟度模型提供了一组与数据科学相关的维度,每个维度中有 5 个成熟度等级 – 1 级是最不成熟的,5 级是最成熟的。 以下是我对重要成熟度模型维度的看法,目标是为您提供评估工具和潜在的路线图:

  • 战略 – 企业的数据科学业务战略是什么?
  • 角色 – 企业中定义和开发了哪些工作角色来支持数据科学活动?
  • 协作 – 数据科学家如何与企业中的其他人(例如业务分析师,应用程序和分析系统开发人员)协作,以发展和交付数据科学工作产品?
  • 方法论 – 数据科学的企业方法是什么?
  • 数据意识 – 数据科学家可以轻松了解企业数据资源吗?
  • 数据访问 – 数据分析师和数据科学家如何请求和访问数据?您又是如何控制,管理和监控数据访问?
  • 可伸缩性 – 这些工具是否可以扩展和执行数据探索,数据准备,数据建模,模型评分和部署?
  • 资产管理 – 如何管理和控制数据科学资产?
  • 工具 – 企业内部使用哪些工具来实现数据科学目标?数据科学家能否利用开源工具与高性能和可扩展的云基础架构相结合?
  • 部署 – 数据科学如何轻松和快速地将产品投入生产以满足及时的业务目标?

成熟度模型中,第一个维度是『战略』:什么是数据科学的企业业务战略呢?战略可以定义为:

在不确定条件下实现一个或多个业务目标的高级计划。

在数据科学方面,目标可能包括做出更好的业务决策,创造新的发现,改善客户获取/保留/满意度,降低成本,优化流程等。根据可用数据的数量和质量以及数据的使用方式,企业面临的不确定程度可以显著降低或加剧。接下来,我们将讨论数据科学成熟度模型『战略』维度的 5 个级别:

第 1 级:企业没有应用数据科学的管理策略。

对于 1 级的企业来说,对数据科学的世界可能并不熟悉,但仍然有一定的数据。数据分析可能是企业日常活动的一部分,但没有总体管理策略或认识到数据是公司的资产。企业已经定义了目标,但数据支持这些目标的程度非常有限。

第 2 级:企业正在探索数据科学作为核心竞争力的价值。

2 级企业实现了数据的潜在价值,并利用该数据获得更大的业务优势。随着机器学习,人工智能和高级分析的所有宣传和实质落地,企业中的商业领袖正在研究科学数据可以提供的价值,并积极进行概念验证 – 认真探索数据科学作为核心业务能力。

第 3 级:企业将数据科学视为竞争优势的核心竞争力。

在完成概念验证后,3 级企业已致力于将数据科学作为核心竞争力及其带来的好处。正在进行系统性的努力,以便在该成熟度模型的其他方面增强数据科学能力。

第 4 级:企业采用数据驱动的决策方法。

一旦企业建立了数据科学的能力,4 级企业就有信心接受使用数据驱动的决策 – 用测量结果和预测分析/机器学习来支持或替代原本罗霍的业务本能。随着数据和技能的提升,业务领导者在做出关键业务决策时更有信心信任数据科学的结果。

第 5 级:数据被视为重要的公司资产 – 数据资本。

关于数据科学的最高级别的策略是对数据提供它应得的『崇敬』 – 将其视为有价值的公司资产 – 一种资本的形式存在。在第 5 级,企业分配足够的资源来开展数据科学项目,这些项目由适当的管理,维护,评估,安全和数据资产的增长以及人力资源支持,以系统地实现战略目标的落地。

定义在企业中支持数据科学活动的『角色』

角色可以被定义为:

一组在社会情境中由人们概念化的相互关联的行为,权利,义务,信仰和规范。

与大多数新业务领域一样,企业内的数据科学可以从添加新角色中获得受益。遵循『策略』维度,我们现在讨论『角色』维度的 5 个成熟度等级:

第 1 级:传统数据分析师使用推论技术探索和汇总数据。

1 级企业可能有专门负责数据分析的人员 – 数据分析员 – 并利用数据库管理员(DBA)或业务分析师的技能来提供商业智能。他们可能使用各种工具来支持相关的工作,例如,电子表格分析,数据可视化,仪表板,数据库查询语言等。处于这些角色的人通常使用演绎推理,因为他们通过制定特定的查询来回答特定的问题。

第 2 级:引入“数据科学家”角色和相应的技能组合,开始利用先进的归纳技术。

2 级企业认识到需要更复杂的分析,以及在数据科学方面受过培训的人。 这些数据科学家是目前备受推崇的人员,可以为企业带来更大的价值。数据科学家现在更多是大学硕士和博士学位的人才,甚至被认为是独角兽。即便如此,数据科学家可能具有不同的优势,包括对数据的准备/争论,编写代码,使用机器学习算法,使用有效的可视化将分析结果传达给技术和非技术受众。因此,给定的数据科学项目可能需要具有互补相关技能的数据科学家团队。2 级企业现在可以更自信地探索,开发和部署基于机器学习,人工智能,数据挖掘,预测分析和高级分析的解决方案。当然具体取决于使用哪些手段最能引起企业的共鸣。在第2级,数据科学家通常根据需要添加到各个部门或组织。

第 3 级:引入首席数据官(CDO)角色,以帮助管理作为公司资产的数据。

虽然不一定是纯粹的数据科学角色,但首席数据官角色对于以数据科学为重点的企业来说,即使不是关键,也是非常有益的。 CDO 负责企业范围内的数据资产治理和使用。随着在第 3 级引入这一角色,不仅数据科学被企业认真对待,而且数据科学项目的关键输入『数据』也是如此。

第 4 级:数据科学家职业道路在整个企业中编纂和标准化。

对于数据科学家在职位描述,技能和培训方面的角色,4 级企业努力使整个企业更加统一。在一些企业中,数据科学活动和/或数据科学家可以在共同或矩阵管理结构下组织在一起。

第 5 级:首席数据科学官(CDSO)角色介绍。

正如首席数据官角色有利于企业更认真地对待数据一样,5 级企业也认识到需要首席数据科学官。在此角色中,CDSO 负责监督,协调,评估和推荐数据科学项目以及帮助实现企业业务目标所需的工具和基础架构。

数据科学家如何和企业中的其他人相互协作?例如,业务分析师,应用程序和仪表板开发人员,来发展和交付数据科学工作产品呢?

数据科学项目通常涉及协作,我们将协作定义为:

两个或更多人或组织共同努力实现同一个目标。

对企业产生积极影响的成功数据科学项目通常需要多个人的参与,例如:数据科学家,数据/业务分析师,业务负责人,业务领域专家,应用程序/仪表板开发人员,数据库管理员和信息技术(IT)管理员。协作可以是非正式的或正式的,但是在更好的情况下,我们寻求支持,鼓励,监控和指导参与者之间更好的协作。

第 1 级:数据分析师经常在孤岛中工作,孤立地执行工作并在本地环境中存储数据和结果。

1 级企业经常遭受『孤岛效应』,企业不同部门的数据分析师孤立地工作,只关注他们可以访问的数据,回答他们部门或组织的问题。即使基本问题相同,在一个领域产生的结果可能与另一个领域的结果不一致。这些差异可能是由于使用不同数据或相同数据的不同版本,或采用不同的方法来达到给定结果。这些差异可以带来有趣的跨组织或企业范围的争论会议。

第 2 级:IT 和业务线组织之间存在更大的协作。

2 级企业寻求传统数据保管员(信息技术)与各种业务部门之间的更大合作。数据和结果的共享可能仍然是临时的,但更大的协作有助于识别数据以解决重要的业务问题并在组织或企业内传达结果。

第 3 级:认识到需要在数据科学项目的各个参与者之间加强合作。

随着数据科学家的引入以及更多地使用数据来解决业务问题的愿望,3 级企业认为需要在参与或受数据科学项目影响的各个参与者之间进行更多的协作。其中包括数据科学家,业务分析师,业务负责人和应用程序/仪表板开发人员等。协作采用数据科学工作产品的共享,修改和传递的形式。工作产品包括,例如,原始数据和转换,数据可视化图和图表,要求和设计规范,直接或基于网络的笔记本(例如,Zeppelin,Jupyter)编写为R / Python / SQL /其他脚本的代码和预测模型。可以使用具有版本控制的传统工具(例如源代码或对象存储库)等等。

第 4 级:广泛使用引入的工具,以便共享,修改,跟踪和传递数据科学工作产品。

4 级企业以 3 级的进展为基础,推出专门用于加强数据科学项目参与者之间协作的工具。这包括支持共享和修改工作产品,以及跟踪更改和工作流程。能够以无缝和受控的方式在定义的工作流程内交付工作产品是其中的关键。有时候企业内的不同组织可能会尝试各种工具,这些工具通常无法互操作。

第 5 级:在整个企业中引入标准化工具,以实现无缝协作。

虽然 4 级企业在加强协作方面取得了重大进展,但 5 级企业对工具进行了标准化,以促进数据科学项目参与者之间的跨企业协作。

下载:企业数据科学成熟度模型评估表