大数据技术与应用专业(610215)学习路径及人才培养模型

大数据技术与应用(610215)学习路径及高校人才培养嵌入模型
大数据技术与应用专业(610215)学习路径及高校人才培养嵌入模型

跨象乘云™ 的大数据技术与应用课程体系,是真正面向企业大数据业务的实践性课程,通过全仿真工程模型,教育技术工具,旨在帮助高等职业院校学生了解:各种大数据技术如何运作,这些技术应何时用于较大规模的大数据项目中,它们如何同时发挥作用,为企业提供最高的大数据项目投资回报率。该课程体系通过多个贯穿教学综合项目案例,旨在将大数据项目开发完整的生命周期与战略阶段 ——

  • 大数据分布式架构(阶段1)
  • 大数据采集和存储(阶段2)
  • 大数据访问和处理(阶段3)
  • 大数据统一和分析(阶段4)
  • 大数据可视化分析(阶段5)

完整的嵌入高等职业院校大数据技术与应用专业(610215)人才培养方案与教学计划当中。每个阶段均包括 Hadoop 核心组件和生态系统技术以及大数据技术或产品。学生将学习信息管理系统如何采用一种全面的方法将大数据(非结构化和半结构化)与关系数据(结构化)进行整合,从而发现更多大数据池中的价值。对应相关课程模块教学与实验需求,提供完整的大数据工程实践系统环境:包括:大数据生态圈核心组件,大数据教育技术工具,数据处理中间件,大数据数据仓库,NoSQL 数据库,教学及科研用示例数据源,以及面向特定专业及行业应用方向开发,管理,调优等功能的应用软件,满足相关教学与实验所需的实验操作。跨象乘云™ 大数据工程实践系统环境,保持每年随技术升级至少三次整体更新,提供未来 3 年系统及组件升级服务,含:操作系统,数据库,软件;课程体系及教材,实验,项目案例,源代码,教学用数据案例等教学资源。

同时,结合当前国家新一代人工智能发展战略,引入面向深度学习与新一代人工智能相关前沿课程,进一步提升学生职业竞争能力及高校科研层次。

专业课程目录包括 ——

  1. 面向对象程序设计
  2. MySQL 数据库管理
  3. Python 基础
  4. 人工智能导论
  5. 数据预处理与数据标记
  6. 大数据技术与应用
  7. 大数据基础与实战
  8. 商务智能数据化运营管理
  9. Spark 框架实战
  10. 智能数据挖掘
  11. Python 数据分析
  12. 图像识别基础
  13. 边缘计算与嵌入式开发(自动驾驶)

《面向对象程序设计》课程

本课程面向略有一点编程经验的学生。本课程向学生介绍了面向对象的概念、术语和语法,通过动手参与活动学习创建基 JAVA 程序所需的步骤。学生将学习 JAVA 编程概念、使用 JAVA 设计面向对象的应用程序,以及通过动手参与活动创建 JAVA 程序。本学习课程面向编程经验较少的学生。学生将学习面向对象的概念、术语和语法,以及通过引人入胜的实践活动创建基本 JAVA 程序所需的步骤。学生将学习 JAVA 编程的概念、使用 JAVA 设计面向对象的应用程序并通过引人入胜的实践活动创建 JAVA 程序。

《MySQL 数据库管理》课程

大数据时代中,实现高效的数据分析除了依赖于分布式架构,并行处理,先进的数据预测算法模型外,数据库以及数据仓库模型本身,同样不可忽略的关键点。数据建模代表了企业业务流程的复杂度,记录了重要的业务规则和概念,并有助于规范企业的关键术语。它清晰地阐述、协助企业揭示商业过程中模糊的想法和歧义。此外,可以使用数据模型与其他利益相关者进行有效沟通。正如要是没有蓝图,不可能建造一个房子或桥梁。本课程为专业基础课程,面向提升学生数据素养与数据思维锻炼,学生将学习分析复杂的业务方案并创建数据模型 - 组织的信息的概念化表示形式。学生 将实施其数据库设计:使用 SQL 创建一个物理数据库。 在此期间会讲解基本的 SQL 语法以及构造有效 SQL 语句的规则。

同时,通过直观易懂的 MySQL 数据库,了解数据库基本原理与操作。MySQL 是全球第二大企业级数据库系统,具有安全控制、数据对象操作、数据备份恢复等主要功能。这些功能保证了 MySQL 作为企业级数据库的可靠性、高性能和可维护性。本课程针对 MySQL 系统管理进行详细介绍,包括系统的安装、配置、数据库及表的创建、系统安全管理、数据库备份恢复、系统日志管理等方面的知识。学员通过本课程的学习,可以系统性了解如何正确安装 MySQL 数据库、创建和执行备份策略、创建安全的存储过程以更新和访问数据等等,还可以掌握 MySQL 数据库的安全知识、了解如何为用户正确分配访问权限、设置资源限制及访问控制等。在管理使用过程中,管理员将不可回避地遇到如何管理 MySQL 应用程序不断增长的数据、如何监控、诊断问题区域并调节 MySQL 以优化性能、如何配置、使用集群等诸多问题,管理员应通过这些高级方法来确保数据库的可靠性、高性能和可维护性。本课程还介绍了性能调优的知识,包括如何充分利用 MySQL 增强特征来编写查询语句以处理查询和索引,教授学员如何评估架构、使用调优工具、配置数据库性能、调优应用程序和 SQL 代码、调优服务器、检查存储引擎等常用调优知识。

《Python 基础》课程

无论是数据科学、人工智能还是机器学习, Python 都是最热门的首选语言。本课程从零基础对 Python 进行教学,从基础的数据类型与结构、条件判断与循环、函数,到进阶的面向对象编程和函数式编程进行学习,并且每章节都安排了相应的实战练习,加强对知识点的理解与掌握,让 Python 快速的成为高校学生的编程工具。

《人工智能导论》课程

本课程面向初次接触人工智能的学生,涵盖的主题包括:人工智能的历史,人工智能在企业及各行各业的应用,解释为何数据对训练神经网络至关重要,以及数据科学工作流程的步骤,同时向学生介绍监督学习和深度学习,并介绍当前的硬件和软件选型。同时,神经网络原理可视化解析器,是一个面向深度学习与新一代人工智能,以图形化界面用于教学目的的简单神经网络交互式演示项目,它非常强大地可视化了神经网络的训练过程。通过直观的交互式演示与实验,让教研人员与学习者高效的掌握神经网络背后的核心思想,并在短时间内对神经网络工作原理以及核心概念具备深刻的认知。通过神经网络可视化解析器,来了解神经网络的原理,通过对源数据,进行训练以达到对数据进行分类的目的(分为正、 负两类)。让学生深刻了解到:什么是神经网络、数据选取、特征选取、隐藏层可视化、输出结果、参数调整、 激活函数等全方面来展示进行网络神经需要哪些操作。

神经网络原理可视化解析器 -《人工智能导论》课程教学演示平台
神经网络原理可视化解析器 -《人工智能导论》课程教学演示平台

《数据预处理与数据标记》课程

机器学习和深度学习项目在大多数企业中变得越来越重要。同时,一个完整的项目流程包括数据整理(Data Preparation)、构建分析模型以及部署至生产环境。该流程是一个:洞察与行动的循环,此循环能不断地改进分析模型。当你打算使用机器学习或深度学习技术来构建分析模型时,一个重要的任务是集成并通过各种数据源来准备数据集,这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的 80%。显然,数据整理是数据科学的核心。它包括数据清洗和特征工程。另外领域知识(Domain Knowledge)也非常重要,它有助于获得好的结果。数据整理不能完全自动化,至少在初始阶段不能。通常,数据整理会占去整个分析管道(流程)的 60% 到 80%。但是,为了使机器学习算法在数据集上获得最优的精确性,数据整理必不可少。《纽约时报》指出,数据清洗与数据整理等预设工作,是大数据科学家获得科研及业务成果的关键。本课程重点让学生掌握强大的数据预处理和数据整理工具,而且不局限与计算机专业学生使用,实现对大数据预处理与数据整理标准化流程的认知,掌握,以及扩展。让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于 Web 服务实现数据扩展处理等各项关键技术。

另一方面,训练深度神经网络需要数据。很多数据。并且根据手头的 AI 架构,如果没有标记,那么这些数据就没有多大用处,这需要时间 – 特别是当你正在处理包含数十万个对象的语料库时。为了减轻数据注释和数据科学家的负担,人工智能行业提供了多种计算机视觉注释工具,旨在加快用于训练计算机视觉算法的视频和图像样本的注释。本课程借助当前流行的深度学习数据标记工具,通过大量的可视化实践训练,使学生掌握与对象检测、图像分类和图像分割相关的监督机器学习任务,以及四种类型的数据注释技巧:框、多边形、折线和点等,获取高效的数据标记能力。

数据预处理与清洗平台 -《数据预处理与数据标记》课程支撑平台
数据预处理与清洗平台 -《数据预处理与数据标记》课程支撑平台

《大数据技术与应用》课程

大数据时代的到来,迫切需要高校及时建立大数据技术课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。本课程定位为大数据技术入门课程,为学习者搭建起通向“大数据知识空间”的桥梁和纽带。本课程将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助学习者形成对大数据知识体系及其应用领域的轮廓性认识,为学习者在大数据领域“深耕细作”奠定基础、指明方向。

《大数据基础与实战》课程

无论是人工智能,机器学习还是深度学习,其发展与壮大均得益于大数据产业的不断成熟。只有在海量数据,多来源数据,多格式数据分析框架的支撑下,机器学习与深度学习的各种算法模型,才能经过不断的训练,重复验证循环,最终得到理想的结果,而形成机器智能认知。大数据已成为人工智能的基础设施,如何实现大数据与人工智能的有机结合,已成为现今高科技互联网企业的重点探索方向。

2018 年,跨象乘云™ 与华中科技大学软件学院合作,面向数据科学与大数据技术专业,编写《数据科学与大数据技术专业系列规划教材》,经专家评审,确定列入人民邮电出版社教育出版的重点规划。同时,跨象乘云™ 配套企业级仿真工程实践系统环境,专业教育资源,贯穿教学综合案例,科研与教学数据集。为高等院校开设数据科学与大数据技术专业,大数据技术与应用专业,深度学习与新一代人工智能科研及相关学科建设,部署校内新一代人工智能开放创新平台提供强有力的支撑。

跨象乘云大数据工程系统实践环境架构
跨象乘云大数据工程系统实践环境架构

《大数据基础与实战》课程,基于合作教材开发,是真正面向企业大数据业务的实践性课程,旨在帮助学生了解:各种大数据技术如何运作,这些技术应何时用于较大规模的大数据项目中,它们如何同时发挥作用,为企业提供最高的投资回报率。该课程旨在阐述大数据项目的五个阶段战略,使客户如何使用并充分利用大数据。这五个阶段包括:

  • 数据处理底层架构(阶段 1)
  • 数据采集和存储(阶段 2)
  • 数据访问和处理(阶段 3)
  • 数据统一和分析(阶段 4)
  • 数据安全/可视化/性能优化(阶段 5)

每个阶段均包括 Hadoop 核心组件和生态系统技术以及大数据技术或产品。学生将学习信息管理系统如何采用一种全面的方法将大数据(非结构化和半结构化)与关系数据(结构化)进行整合,从而发现更多嵌入大数据池中的价值。同时,通过:电子商务金融健康医疗等真实的商业级项目实训案例,完整的『端到端』业务流程演示与上机操作训练,让学生真正了解大数据行业背景以及企业实施技术需求,通过直观而具备针对性的训练使学生在最短时间内得到应用技术技能的提升,更进一步满足职业岗位对工作技能的需求。从而使学生能够学习到:

  • 大数据整体业务流程及系统组件部署模式;
  • 数据源捕获与多格式数据集成,实现『全』数据分析与挖掘;
  • 应用多种分析算法获得最佳预测计算模型;
  • 利用数据可视化分析系统展现最佳商业智能视图;
  • 通过参与商业项目研发流程,有效掌握岗位所需技能,实现精确匹配;
工程项目案例:构建用户行为分析推荐系统架构
工程项目案例:构建用户行为分析推荐系统架构

《商务智能数据化运营管理》课程

本课程面向数据科学与大数据应用专业建设,定位一线运维人员岗位需求实现人才培养规划。基于商务智能数据可视化分析科研教学实践环境,通过直观的可视化操作界面,先进的商务智能数据可视化分析平台,并穿插海量真实行业数据分析案例,实现业务逻辑与商务思维应用在大数据分析领域的结合,精准匹配行业需求并提升职业竞争能力。不但对于计算机专业学生,即便是经管学院,数理学院,乃至文史类专业学生都能利用商务智能数据可视化分析平台,实现对数据的精确分析。

《Spark 框架实战》课程

Spark 是当前大数据行业内的事实标准,是由 UC Berkeley AMP lab (加州大学伯克利的 AMP 实验室)开源的类 Hadoop MapReduce 的通用并行框架,Spark 拥有 Hadoop MapReduce 所具有的优点,但不同于 MapReduce 的是 Job 中间结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 算法。Spark  是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 主要有三个特点:首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。其次,Spark 很快,支持交互式计算和复杂算法。最后,Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。