《数据预处理与数据标记》课程

机器学习和深度学习项目在大多数企业中变得越来越重要。同时,一个完整的项目流程包括数据整理(Data Preparation)、构建分析模型以及部署至生产环境。该流程是一个:洞察与行动的循环,此循环能不断地改进分析模型。当你打算使用机器学习或深度学习技术来构建分析模型时,一个重要的任务是集成并通过各种数据源来准备数据集,这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的 80%。显然,数据整理是数据科学的核心。它包括数据清洗和特征工程。另外领域知识(Domain Knowledge)也非常重要,它有助于获得好的结果。数据整理不能完全自动化,至少在初始阶段不能。通常,数据整理会占去整个分析管道(流程)的 60% 到 80%。但是,为了使机器学习算法在数据集上获得最优的精确性,数据整理必不可少。《纽约时报》指出,数据清洗与数据整理等预设工作,是大数据科学家获得科研及业务成果的关键。本课程重点让学生掌握强大的数据预处理和数据整理工具,而且不局限与计算机专业学生使用,实现对大数据预处理与数据整理标准化流程的认知,掌握,以及扩展。让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于 Web 服务实现数据扩展处理等各项关键技术。

另一方面,训练深度神经网络需要数据。很多数据。并且根据手头的 AI 架构,如果没有标记,那么这些数据就没有多大用处,这需要时间 – 特别是当你正在处理包含数十万个对象的语料库时。为了减轻数据注释和数据科学家的负担,人工智能行业提供了多种计算机视觉注释工具,旨在加快用于训练计算机视觉算法的视频和图像样本的注释。本课程借助当前流行的深度学习数据标记工具,通过大量的可视化实践训练,使学生掌握与对象检测、图像分类和图像分割相关的监督机器学习任务,以及四种类型的数据注释技巧:框、多边形、折线和点等,获取高效的数据标记能力。

数据预处理与清洗平台 -《数据预处理与数据标记》课程支撑平台
数据预处理与清洗平台 -《数据预处理与数据标记》课程支撑平台