最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。
日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。
数据科学的企业方法论是什么呢?
最常被引用的『数据挖掘』方法 CRISP-DM 是数据科学的一个关键要素。但是,数据科学的广度和发展可能需要超越 CRISP-DM 引入的传统阶段:业务理解,数据理解,数据准备,建模,评估和部署。 实际上,结果反馈循环或扩展数据感知/访问阶段的价值可能是有用的。此外涉及数据科学项目参与者和工作产品的企业特定工作流程可能是提高生产率和衍生价值所必需的过程和方法。
和以前一样,我们将讨论『方法论』维度的 5 个成熟度等级中的每一个:
第 1 级:数据分析侧重于使用商业智能和数据可视化工具的临时方法。
对于一级企业,数据分析师和其他参与者通常不遵循既定的方法,而是依赖于他们的经验,技能和偏好。主要是通过仪表板,报告实现商业智能和数据可视化,并依赖于传统的方式进行演绎查询。
第 2 级:数据分析扩展到包括采用解决业务问题的机器学习和预测分析的方法,但仍使用临时方法。
与 1 级一样,2 级企业通常不遵循既定的方法,而是依赖于玩家的经验,技能和偏好。但是,二级企业补充了传统角色,例如数据分析师,他们为数据科学家提供商业智能和数据可视化,他们引入了更先进的数据科学技术,如机器学习和预测分析。随着数据科学家的引入,临时数据科学“方法论”得到了更多隐含的增强使用。
第 3 级:各个组织开始定义并定期应用数据科学方法。
3 级企业处于试验阶段,各个组织开始定义自己的方法实践或利用现有的方法实践。目标包括:在控制风险的同时提高数据科学项目的生产率,一致性和可重复性。但是数据科学项目可能会或可能不会有效地跟踪部署的模型结果的性能。
第 4 级:为数据科学项目建立的基础数据科学方法最佳实践。
4 级企业通过在整个企业中建立方法最佳实践,从 3 级的进展为基础。这些最佳实践源于组织实验或从现有方法中得来。通过建立最佳实践,企业可以提高数据科学项目的生产率,一致性和可重复性,同时降低失败的风险。
第 5 级:整个企业正式化数据科学方法的最佳实践。
在第 4 级建立了数据科学的最佳实践后,5 级企业正式确定了数据科学项目的其他关键方面,包括项目规划,需求收集/规范和设计,以及实施,部署和项目评估。
数据科学家可以轻松地了解哪些企业数据资源?一般而言,『意识』一词可以定义为 ——
拥有知识,知觉的状态或条件。
对于数据感知,我们可能会将此定义细化为:
了解企业中存在的数据并了解其内容。
企业通常在组织和部门之间拥有许多数据存储库。数据可以存在于数据库,平面文件,电子表格以及其他各种硬件,操作系统和文件系统中。此外,数据孤岛造成企业的一部分人完全不知道另一部分数据的存在,更不用说数据的含义了。
跨企业的数据感知使数据科学参与者,尤其是数据科学家,能够从元数据的角度浏览和理解数据。这样的元数据可以包括例如表和各列的文本描述,关键摘要统计,数据质量度量等。数据意识对于提高生产力至关重要,同时也是对数据资产进行清点并使企业转向『单一版本的事实』起到至关重要的作用。
和以前一样,我们将讨论『数据意识』维度的 5 个 成熟度等级中的每一个:
第 1 级:数据用户没有系统的方法来了解企业中可用的数据资产。
在理解整个企业中可能存在的数据资源时,1 级企业通常处于黑暗中。数据可以存储在员工计算机上的电子表格或平面文件中,也可以存储在部门或特定于应用程序的数据库中。没有数据格局的地图可以帮助查找感兴趣的数据,而且,企业还没有意识到需要这样做。
第 2 级:数据分析师和数据科学家通过『关键人物』寻求其他数据源。
2 级企业已『唤醒』了寻找正确数据的需求和好处。随着数据分析师和数据科学家采用更具分析意义的项目,数据搜索将在个人层面上进行 – 单独联系数据所有者或企业内部的其他人,以了解存在哪些数据。当然此时试图了解存在哪些数据,如何解释数据及其质量,会浪费大量时间。
第 3 级:对现有企业数据资源进行目录化,并评估其质量和效用,以解决业务问题。
3 级企业认为有必要让数据科学参与者更容易找到数据,并对解决业务问题的质量更有信心。特殊的元数据目录开始出现,这使得更容易理解可用的数据,但是,这些目录是非标准的,不是集成的,并且分散在整个企业中。
第 4 级:Enterprise 引入了元数据管理工具。
4 级企业通过引入元数据管理工具构建了第 3 级的进展,数据科学家和其他人可以发现可用于解决关键业务问题的数据资源。由于企业刚刚开始认真对待元数据,企业内的不同部门或组织可能会使用不同的工具。虽然数据科学家有所改进,但各种工具的元数据模型并未集成,因此可能需要咨询多种工具来完成。
第 5 级:企业标准化元数据管理工具,并将其用于所有数据资产制度化。
5 级企业完全接受了集成元数据的价值,并通过有效的工具促进了元数据的维护和组织。所有数据资产都通过完整的元数据描述进行质量和实用性策划,以实现整个企业的高效数据识别和发现。数据科学家的生产力和项目质量随着他们现在可以轻松找到可用的企业数据而增加。
数据分析师和数据科学家如何请求和访问数据?如何控制,管理和监控数据的访问?当我们考虑『数据访问』时,其中的定义指的是 ——
与存储,检索或处理数据库或其他存储库中的数据相关的软件和活动
通常与授权相关联 ,包括允许访问的内容 ,审计谁,何时,何地访问过什么。 有时候数据访问可以在很少或完全没有控制的情况发生,比如当访问某人没有加密的 U 盘时。或者通过安全数据库认证和计算机网络认证来进行严格的访问控制。 数据访问不仅考虑到用户方,还考虑了管理员有效管理数据访问生命周期的能力 – 从初始请求到撤销权限和使用后数据清理。
和以前一样,我们将讨论『数据访问』维度的 5 个成熟度等级中的每一个:
级别 1:数据分析师通常通过从 IT 或其他来源直接获得的平面文件来访问数据。
一级企业的数据科学公司使用历史上被称为『sneakernet』的东西。如果您需要数据,直接找到数据所有者,通过 U 盘或移动硬盘,然后将其加载到本地计算机上。当然,有时候这已经变成向数据所有者发送电子邮件请求,并通过电子邮件获取所请求的数据。以这种方式提供对数据的访问显然是不安全的。此外,在第一次尝试时不太可能获得『正确』的数据,因此数据所有者可能需要多次迭代操作。这会导致延迟,甚至使这些数据所有者非常烦恼。
第 2 级:通过直接程序数据库访问提供数据访问。
在二级企业中,sneakernet 被认为是不安全和低效的。此外,由于许多企业数据存储在数据库中,因此更容易启用授权和编程访问。通过方便的 API(ODBC,R 和 Python 包等)直接访问数据库,可以为数据科学参与者提供更多数据,从而缩短数据请求周期。但是,除了数据存储库/环境本身可能的任何处理(例如,关系数据库的 SQL)之外的任何处理仍然需要将数据提取到客户端机器,这可能具有安全隐患。
第 3 级:数据科学家已经对大容量数据进行了身份验证,可编程访问,但数据库管理员很难管理数据访问生命周期。
3 级企业正在经历数据访问增长的痛苦。数据科学家现在可以访问大量数据,并希望在他们的工作中使用更多数据。数据库管理员充斥着对广泛(多模式)和窄(单个表)数据访问的请求。确保个人获得适当的批准以访问他们所需的数据并可能实施数据屏蔽导致数据访问请求积压。3 级企业也开始用新的“大数据”存储库补充传统的结构化数据库数据,例如 HDFS,NoSQL 等。这些数据量更大的数据包括从社交媒体数据到传感器/图像/文本/语音的任何内容数据。
第 4 级:使用识别管理工具更严格地控制和管理数据访问。
虽然某些行业的企业(例如财务部门)将在不同程度上解决访问控制问题,但在更广泛地解决数据访问问题时,4 级企业了解用户身份的端到端生命周期管理的重要性,并开始引入工具加强安全性并酌情简化合规性。 4 级企业的目标是使数据科学参与者更容易请求和接收数据,同时还使管理员更容易管理,尤其是在引入更多大数据存储平台时。企业范围的自助服务访问请求 Web 应用程序可用于促进请求和授予数据访问。理想情况下,这将与用于数据感知的元数据管理工具集成。
第 5 级:数据访问沿袭跟踪可实现明确的数据推导和来源识别。
5 级企业已经对身份管理和审计进行了标准化,以支持安全的数据访问,现在关注的问题是『产生此结果的数据的来源是什么?』即使在利用企业数据仓库的企业中,数据仍可以复制到其他数据库,或利用各种网关提供对远程数据的透明访问。 5 级企业可以跟踪数据科学工作产品的衍生 – 它们的血统 – 与实际数据源的验证。