数据清洗,是数据科学工程中性价比最低的一个环节 —— 占用时间及工作量极大,然而输出价值却不高。同时,数据清洗对于整个工程项目而言却非常重要,未经清洗的数据很可能导致错误的分析结论。尽管 Python,R,以及大部分机器学习工具都能实现数据清洗功能,也有技术书籍介绍如何实现 —— 然而,由于都是基于代码操作,读取数据并不直观,因此效率并不高。
最为全球最大的政府开放数据网站 —— 欧盟开放数据门户网站针对开放数据提供了一系列的在线课程,通过简洁的文字与视频,概要性的向用户介绍数据科学与开放数据的各个主要环节。其中一节便着重介绍数据清洗的重要性,以及如何实现数据清洗的在线教程,以便用户更好的应用从网站上下载回来的数据。最后,教程还提供了一份简单实验操作指导,通过三份真实的数据集,使用数据清洗神器:Open Refine 完成数据清洗。
数据清洗由于性价比较低,国外数据公司倾向通过外包的方式提供给专门的数据清洗第三方服务提供商完成。目前,由于种种原因,国内尚未形成成熟的数据清洗外包服务体系;而企业的数据清洗需求将日益增多。对于国内大专、高职大数据专业学院而言,正好借助这一机会,接收数据清洗外包项目,在校内建立数据清洗外包基地。一方面企业对高校具有天然的信任感,另一方面,将能为学生提供大量的项目实习机会。
跨象乘云的课程:《数据预处理与数据整理》(32学时)的定位,便是是将完整的数据清洗工程流程及项目实战嵌入高校人才培养计划,让学生掌握强大的数据预处理和数据整理工具,而且不局限与计算机专业学生使用,实现对大数据预处理与数据整理标准化流程的认知,掌握,以及扩展。让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于Web服务实现数据扩展处理等各项关键技术。