最近两年最火的话题无非就是大数据、人工智能,但都离不开机器学习;机器学习通俗点说就是将我们人的处理事情的思想和逻辑赋能给计算机。也就是说在我们的精确指导下,计算机能够替代我们去完成这些常规的工作。要想好好发挥机器学习的作用,当然离不开各种语言和框架。但是更重要的是企业需要一开始就能清楚了解自身的企业数据科学成熟度,从而制定相应的数据科学战略。
日前,《Oracle 大数据和分析》发布了 12 期关于企业数据科学『成熟度模型』的研讨,跨象乘云™ 分四期进行转载 —— 文末提供企业数据科学成熟度模型评估表下载;讨论商业领袖和数据科学从业者如何评估他们的企业所在的每个维度和级别,并帮助他们确定未来的目标,考虑每个维度对企业战略,业务和整体的重要性。 这种企业的内省有助于识别,并帮助确定数据科学目标的架构,工具和实践。
数据科学如何轻松地部署产品,投入生产,以满足及时的业务目标?
数据科学期望惊人的见解和预测将改变业务并使企业达到新的绩效水平。然而,数据科学项目往往无法『升空』,导致企业的重大机会成本。数据科学家可以产生具有高精度的预测模型,然而如果这些模型没有有效地投入生产,即部署,则不能实现期望的收益。
在本次讨论中似乎相关的『部署』的更一般定义是 ——
将资源纳入有效行为的行动。
这种情况下的资源是指数据科学工作的产品,如机器学习模型,可视化,统计分析等。有效的行动是对提供商业利益的方式提供这些资源:交互式仪表板中提供的及时见解,影响哪些对客户,员工,资产等采取的行动的预测结果。
对于一般的数据科学,特别是机器学习,大多数部署机制在各个项目中是相同的。然而企业经常发现个别项目重新发明部署基础架构,需要恢复逻辑以及缺少严格的测试。利用提供部署管道的工具可以大大降低部署数据科学项目的开销和风险。
和以前一样,我们将讨论『部署』维度的 5 个成熟度等级中的每一个:
第1级:数据科学结果的范围有限,因此提供有限的商业价值。
在 1 级企业中,数据科学项目的结果通常采用幻灯片演示或文本报告中记录的见解形式呈现。数据分析,可视化甚至预测模型可以为人类决策提供指导,但这些结果必须在每个项目的基础上手动传达。
第 2 级:生产模型部署被视为有价值,但通常涉及为每个项目重新构建基础架构。
在2级企业中,可以在一线应用程序和系统中利用机器学习模型的认识得以自动实现。一些见解可以明确地编码到应用程序或仪表板逻辑中,但是,模型创建和部署之间的时间可以显着影响模型的准确性。当用于模型构建的数据模式与用于评分的当前数据不同时,会发生部署的延迟。此外,为了更容易地与现有应用程序或仪表板集成,手动编码(例如,用 C,Java 或甚至 SQL 中进行评分的预测模型系数)需要开发人员的大量时间,并且可能导致编码错误。只有严格的代码审查和测试才能揭示其中的错误。因此,企业会产生数据科学项目的成本,但却没有充分实现潜在的项目效益。
第 3 级:企业开始提供并利用简化的自动化模型部署工具,包括开源软件和环境。
随着更多的数据科学项目的开展,3 级企业意识到一次性部署方法浪费了宝贵的开发资源,导致部署延迟,降低了模型的有效性,并增加了项目风险。在当今支持互联网的世界中,数据模式(例如客户偏好)可以在一夜之间发生变化,要求企业更灵活地使用最新数据构建,测试和部署模型。第3级的企业开始利用提供所需基础架构的工具来支持简化和自动化的模型部署。
第 4 级:企业系统的异构性增加需要跨平台模型部署,并且越来越需要将模型合并到流数据应用程序中。
Level 4 企业结合了数据库,Hadoop,Spark 和其他用于管理数据和计算的平台。企业越来越需要在一个环境中生成的模型和脚本部署到另一个环境中。这增加了对能够导出模型以便在评分引擎库中使用的工具的需求,该评分引擎库可以轻松集成到应用程序中。4 级企业在开始使用涉及快速数据的数据科学结果时,寻求能够在实时或流分析情况下促进脚本和模型部署的工具。
第 5 级:企业已经实现了跨异构环境即时数据科学工作产品(重新)部署的好处。
5 级企业采用了一套标准工具来支持跨所有必要环境部署数据科学工作产品。在一个环境中创建的机器学习模型和脚本可以立即以最小的延迟进行部署和刷新(重新部署)。
数据科学成熟度模型(DSMM)系列的这一部分包含我们之前提到的所有维度和等级的汇总表。将数据科学作为核心竞争力的企业可能希望评估他们当前处于每个维度的哪个水平。在某些情况下,企业可能跨越多个级别。作为下一步,企业可以使用这种成熟度模型来确定他们每个维度中的所渴望实现的级别,当然我们也期待技术的创新能设计出新的级别 6。