无论是对于互联网,电子商务,连锁零售还是其他传统行业,基于大数据的机器学习和深度学习项目在大多数企业中变得越来越重要。同时,一个完整的项目流程包括:数据整理(Data Preparation)、构建分析模型以及部署至生产环境。该流程是一个:洞察 –> 行动 –> 循环(Insights –> Action –> Loop),此循环能不断地改进分析模型。当你打算使用机器学习或深度学习技术来构建分析模型时,一个重要的任务是集成并通过各种数据源来准备数据集,这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的80%。
显然,数据整理是数据科学的核心。它包括数据清洗和特征工程。另外领域知识(Domain Knowledge)也非常重要,它有助于获得好的结果。数据整理不能完全自动化,至少在初始阶段不能。通常,数据整理会占去整个分析管道(流程)的 60% 到 80%。但是,为了使机器学习算法在数据集上获得最优的精确性,数据整理必不可少。《纽约时报》指出,数据清洗与数据整理等预设工作,是大数据科学家获得科研及业务成果的关键 —— 其中,数据整理当中很重要的一环在于数据清洗,数据清洗可使数据获得用于分析的正确结构(Shape)和质量(Quality)。它包括了许多不同的功能,例如:
- 基本功能 —— 选择、过滤、去重 …
- 采样 —— 平衡(Balanced)、分层(Stratified)…
- 数据分配 —— 创建训练+验证+测试数据集 …
- 变换 —— 归一化、标准化、缩放、pivoting …
- 分箱(Binning)—— 基于计数、将“缺失值”作为其自己的组处理 …
- 数据替换 —— 剪切(Cutting)、分割(Splitting)、合并 …
- 加权与选择 —— 属性加权、自动优化 …
- 属性生成 —— ID生成 …
- 数据填补(Imputation)—— 使用统计算法替换缺失的观察值;
数据整理会出现在分析项目的不同阶段,包括 ——
- 数据预处理:从数据源获取数据之后直接处理数据。通常由开发人员或数据科学家实现,它包括初始转换、聚合(Aggregation)和数据清洗。此步骤在数据的交互式分析开始之前完成。它只执行一次。
- 数据整理:在交互式数据分析和建模期间准备数据。通常由数据科学家或业务分析师完成,以便更改数据集和特征工程的视图。此步骤会迭代更改数据集的形状,直到它能很好地查找洞察或构建良好的分析模型。
尽管很多数据挖掘,机器学习,深度学习乃至可视化分析探索平台 —— 如:KNIME,Rapid-Miner,R,Python,都提供了相当一部分的数据整理功能,然而大部分平台要求操作人员具备一定深度的计算机与数据挖掘及统计知识技术背景,而对于非计算机专业人员则具有天然的技能屏障。尽管当前还有如:Data-Wrangler,Trifacta Wrangler,TIBCO Spot-Fire 等较为接近一般用户水平的工具,然后由于大多数属于商业软件,无疑又增加了数据整理的成本。
跨象乘云™ 数据预处理与清洗平台(简称:KXCY-BD-DP),是一款专为科学家、非政府组织、记者等任何会接触到资料的人而设计的工具,让你不需要写程式也可以进行复杂的数据整理。
之前,很多人可能都是利用 Microsoft Excel、Google Spreadsheet 等工具来进行数据整理。试算表整理数据相当直觉,但毕竟试算表当初并不是专为了数据整理而打造的,在拿到数据的时候,我们可能会碰到各种问题,例如资料格式错乱、栏位与内容不统一、排版特殊且不堪使用。这其中有相当多种类的问题用基本的试算表功并没办法很容易的处理好。跨象乘云™ 数据预处理与清洗平台(简称:KXCY-BD-DP),就是专门为了对付杂乱的数据而设计的。除了数据预处理与清洗平台自身强大的数据整理功能以外,通过加载扩展插件,用户甚至可以进一步扩充将数据预处理与清洗的功能实现扩充,当前共有20款扩展插件用于扩充数据预处理与清洗的功能。可以说数据预处理与清洗是史上最强大的,不局限与IT专业人士使用的数据整理工具平台。