数据科学与大数据技术专业(080910T)学习路径及人才培养模型

数据科学与大数据技术专业(080910T)学习路径及人才培养模型
数据科学与大数据技术专业(080910T)学习路径及人才培养模型

跨象乘云™ 的数据科学与大数据技术课程体系,是真正面向企业大数据业务的实践性课程,通过全仿真工程模型,教育技术工具,旨在帮助高等院校学生了解:各种大数据技术如何运作,这些技术应何时用于较大规模的大数据项目中,它们如何同时发挥作用,为企业提供最高的大数据项目投资回报率。该课程体系通过多个贯穿教学综合项目案例,旨在将大数据项目开发完整的生命周期与战略阶段 ——

  • 大数据分布式架构(阶段1)
  • 大数据采集和存储(阶段2)
  • 大数据访问和处理(阶段3)
  • 大数据统一和分析(阶段4)
  • 大数据可视化分析(阶段5)

完整的嵌入高等院校数据科学与大数据技术专业(080910T)人才培养方案与教学计划当中。每个阶段均包括 Hadoop 核心组件和生态系统技术以及大数据技术或产品。学生将学习信息管理系统如何采用一种全面的方法将大数据(非结构化和半结构化)与关系数据(结构化)进行整合,从而发现更多大数据池中的价值。对应相关课程模块教学与实验需求,提供完整的大数据工程实践系统环境:包括:大数据生态圈核心组件,大数据教育技术工具,数据处理中间件,大数据数据仓库,NoSQL 数据库,教学及科研用示例数据源,以及面向特定专业及行业应用方向开发,管理,调优等功能的应用软件,满足相关教学与实验所需的实验操作。跨象乘云™ 大数据工程实践系统环境,保持每年随技术升级至少三次整体更新,提供未来 3 年系统及组件升级服务,含:操作系统,数据库,软件;课程体系及教材,实验,项目案例,源代码,教学用数据案例等教学资源。

驱动新一代人工智能的三驾马车 - 大数据,算法结构,计算力
驱动新一代人工智能的三驾马车 – 大数据,算法结构,计算力

同时,作为驱动新一代人工智能产业发展的三驾马车,数据科学与大数据技术和人工智能之间已形成密不可分的关联,结合当前国家新一代人工智能发展战略,跨象乘云™ 引入面向深度学习与新一代人工智能,机器学习,特征工程等相关前沿课程,进一步提升学生职业竞争能力及高校科研层次。

专业课程目录包括 ——

  1. Python 基础
  2. 人工智能导论
  3. 数据库原理
  4. 面向对象程序设计
  5. MySQL 数据库管理
  6. 数据采集与网络爬虫
  7. 数据预处理与数据标记
  8. 大数据技术与应用
  9. 大数据基础与实战
  10. 商务智能数据化运营管理
  11. Spark 框架实战
  12. 智能数据挖掘
  13. Python 数据分析
  14. 特征工程
  15. 机器学习
  16. 深度学习
  17. 时间序列分析
  18. 异常检测
  19. 视频点播推荐系统
  20. 医疗流感趋势预测
  21. 金融交易投保预测
  22. 房地产大数据探索
  23. 零售商务智能分析

《数据库原理》课程

在当今以数据为推动力的经济中,计算机科学和业务课程如果没有数据库和数据管理方面的课程,就不能说是完善的。应了解计算机如何组织、使用和处理数据,这对于了解如何使用我们掌握的数据以及如何寻求创新方式以更好地管理和使用数据都至关重要。数据库出现由来已久,不过总会出现新的内容需要学习。《数据库原理与应用》是第一门入门课程,本课程向学生介绍基本关系数据库概念。本课程向学生教授关系数据库术语以及数据建模概念,构建实体关系图 (ERD) 及映射 ERD 等知识。使用 SQL Developer Data Modeler 构建 ERD,使用结构化查询语言 (SQL) 与关系数据库进行交互并处理数据库中的数据。使用 Oracle Application Express 提供动手参与的实践活动。利用基于项目的学习技术,学生将创建和处理项目,这对他们提出了为企业或组织设计、实施和演示数据库解决方案的挑战。本课程通过一个学术数据库/学校信息数据库的建模与创建的综合案例,为项目贯穿整个课程的多个知识点。同时也包含了多个包括:电子图书馆,酒店,保险,零售,租赁等多个行业的业务分析。

《面向对象程序设计》课程

本课程面向略有一点编程经验的学生。本课程向学生介绍了面向对象的概念、术语和语法,通过动手参与活动学习创建基 JAVA 程序所需的步骤。学生将学习 JAVA 编程概念、使用 JAVA 设计面向对象的应用程序,以及通过动手参与活动创建 JAVA 程序。本学习课程面向编程经验较少的学生。学生将学习面向对象的概念、术语和语法,以及通过引人入胜的实践活动创建基本 JAVA 程序所需的步骤。学生将学习 JAVA 编程的概念、使用 JAVA 设计面向对象的应用程序并通过引人入胜的实践活动创建 JAVA 程序。

《MySQL 数据库管理》课程

大数据时代中,实现高效的数据分析除了依赖于分布式架构,并行处理,先进的数据预测算法模型外,数据库以及数据仓库模型本身,同样不可忽略的关键点。数据建模代表了企业业务流程的复杂度,记录了重要的业务规则和概念,并有助于规范企业的关键术语。它清晰地阐述、协助企业揭示商业过程中模糊的想法和歧义。此外,可以使用数据模型与其他利益相关者进行有效沟通。正如要是没有蓝图,不可能建造一个房子或桥梁。本课程为专业基础课程,面向提升学生数据素养与数据思维锻炼,学生将学习分析复杂的业务方案并创建数据模型 - 组织的信息的概念化表示形式。学生 将实施其数据库设计:使用 SQL 创建一个物理数据库。 在此期间会讲解基本的 SQL 语法以及构造有效 SQL 语句的规则。

同时,通过直观易懂的 MySQL 数据库,了解数据库基本原理与操作。MySQL 是全球第二大企业级数据库系统,具有安全控制、数据对象操作、数据备份恢复等主要功能。这些功能保证了 MySQL 作为企业级数据库的可靠性、高性能和可维护性。本课程针对 MySQL 系统管理进行详细介绍,包括系统的安装、配置、数据库及表的创建、系统安全管理、数据库备份恢复、系统日志管理等方面的知识。学员通过本课程的学习,可以系统性了解如何正确安装 MySQL 数据库、创建和执行备份策略、创建安全的存储过程以更新和访问数据等等,还可以掌握 MySQL 数据库的安全知识、了解如何为用户正确分配访问权限、设置资源限制及访问控制等。在管理使用过程中,管理员将不可回避地遇到如何管理 MySQL 应用程序不断增长的数据、如何监控、诊断问题区域并调节 MySQL 以优化性能、如何配置、使用集群等诸多问题,管理员应通过这些高级方法来确保数据库的可靠性、高性能和可维护性。本课程还介绍了性能调优的知识,包括如何充分利用 MySQL 增强特征来编写查询语句以处理查询和索引,教授学员如何评估架构、使用调优工具、配置数据库性能、调优应用程序和 SQL 代码、调优服务器、检查存储引擎等常用调优知识。

《Python 基础》课程

无论是数据科学、人工智能还是机器学习, Python 都是最热门的首选语言。本课程从零基础对 Python 进行教学,从基础的数据类型与结构、条件判断与循环、函数,到进阶的面向对象编程和函数式编程进行学习,并且每章节都安排了相应的实战练习,加强对知识点的理解与掌握,让 Python 快速的成为高校学生的编程工具。

《人工智能导论》课程

本课程面向初次接触人工智能的学生,涵盖的主题包括:人工智能的历史,人工智能在企业及各行各业的应用,解释为何数据对训练神经网络至关重要,以及数据科学工作流程的步骤,同时向学生介绍监督学习和深度学习,并介绍当前的硬件和软件选型。同时,神经网络原理可视化解析器,是一个面向深度学习与新一代人工智能,以图形化界面用于教学目的的简单神经网络交互式演示项目,它非常强大地可视化了神经网络的训练过程。通过直观的交互式演示与实验,让教研人员与学习者高效的掌握神经网络背后的核心思想,并在短时间内对神经网络工作原理以及核心概念具备深刻的认知。通过神经网络可视化解析器,来了解神经网络的原理,通过对源数据,进行训练以达到对数据进行分类的目的(分为正、 负两类)。让学生深刻了解到:什么是神经网络、数据选取、特征选取、隐藏层可视化、输出结果、参数调整、 激活函数等全方面来展示进行网络神经需要哪些操作。

神经网络原理可视化解析器 -《人工智能导论》课程教学演示平台
神经网络原理可视化解析器 -《人工智能导论》课程教学演示平台

《数据采集与网络爬虫》课程

网络上的数据量越来越大,单靠浏览网页获取静态数据越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本课程是专业核心课程,面向数据运营经理职位,采用简洁强大的 Python 语言,全面介绍网络数据采集技术,让学生从不同形式的网络资源中自由地获取数据。同时,本课程是实战性极高的课程,基于多位网络数据采集专家自身工作的宝贵经验汇编而成。特别在国内开放数据环境尚未成熟前,通过汲取前人宝贵的工作经验,学生将以最短的学习路径,了解如何使用 Python 脚本和网络 API 一次性采集并处理成千上万个网页上的数据。本课程不仅介绍了网络数据采集的基本原理,还提供了详细的代码示例与校内本地示例网站(网络条件不满足)让学生动手进行数据采集。最终实现具备基于网络爬虫,爬取:豆瓣,百度,知乎,去哪儿,淘宝,微博,小猪,58同城,JD京东,“腾讯”新闻等国内数据产生及聚集网站数据的能力。

《数据预处理与数据标记》课程

机器学习和深度学习项目在大多数企业中变得越来越重要。同时,一个完整的项目流程包括数据整理(Data Preparation)、构建分析模型以及部署至生产环境。该流程是一个:洞察与行动的循环,此循环能不断地改进分析模型。当你打算使用机器学习或深度学习技术来构建分析模型时,一个重要的任务是集成并通过各种数据源来准备数据集,这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的 80%。显然,数据整理是数据科学的核心。它包括数据清洗和特征工程。另外领域知识(Domain Knowledge)也非常重要,它有助于获得好的结果。数据整理不能完全自动化,至少在初始阶段不能。通常,数据整理会占去整个分析管道(流程)的 60% 到 80%。但是,为了使机器学习算法在数据集上获得最优的精确性,数据整理必不可少。《纽约时报》指出,数据清洗与数据整理等预设工作,是大数据科学家获得科研及业务成果的关键。本课程重点让学生掌握强大的数据预处理和数据整理工具,而且不局限与计算机专业学生使用,实现对大数据预处理与数据整理标准化流程的认知,掌握,以及扩展。让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于 Web 服务实现数据扩展处理等各项关键技术。

另一方面,训练深度神经网络需要数据。很多数据。并且根据手头的 AI 架构,如果没有标记,那么这些数据就没有多大用处,这需要时间 – 特别是当你正在处理包含数十万个对象的语料库时。为了减轻数据注释和数据科学家的负担,人工智能行业提供了多种计算机视觉注释工具,旨在加快用于训练计算机视觉算法的视频和图像样本的注释。本课程借助当前流行的深度学习数据标记工具,通过大量的可视化实践训练,使学生掌握与对象检测、图像分类和图像分割相关的监督机器学习任务,以及四种类型的数据注释技巧:框、多边形、折线和点等,获取高效的数据标记能力。

数据预处理与清洗平台 -《数据预处理与数据标记》课程支撑平台
数据预处理与清洗平台 -《数据预处理与数据标记》课程支撑平台

《大数据技术与应用》课程

大数据时代的到来,迫切需要高校及时建立大数据技术课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。本课程定位为大数据技术入门课程,为学习者搭建起通向“大数据知识空间”的桥梁和纽带。本课程将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助学习者形成对大数据知识体系及其应用领域的轮廓性认识,为学习者在大数据领域“深耕细作”奠定基础、指明方向。

《大数据基础与实战》课程

无论是人工智能,机器学习还是深度学习,其发展与壮大均得益于大数据产业的不断成熟。只有在海量数据,多来源数据,多格式数据分析框架的支撑下,机器学习与深度学习的各种算法模型,才能经过不断的训练,重复验证循环,最终得到理想的结果,而形成机器智能认知。大数据已成为人工智能的基础设施,如何实现大数据与人工智能的有机结合,已成为现今高科技互联网企业的重点探索方向。

2018 年,跨象乘云™ 与华中科技大学软件学院合作,面向数据科学与大数据技术专业,编写《数据科学与大数据技术专业系列规划教材》,经专家评审,确定列入人民邮电出版社教育出版的重点规划。同时,跨象乘云™ 配套企业级仿真工程实践系统环境,专业教育资源,贯穿教学综合案例,科研与教学数据集。为高等院校开设数据科学与大数据技术专业,大数据技术与应用专业,深度学习与新一代人工智能科研及相关学科建设,部署校内新一代人工智能开放创新平台提供强有力的支撑。

跨象乘云大数据工程系统实践环境架构
跨象乘云大数据工程系统实践环境架构

《大数据基础与实战》课程,基于合作教材开发,是真正面向企业大数据业务的实践性课程,旨在帮助学生了解:各种大数据技术如何运作,这些技术应何时用于较大规模的大数据项目中,它们如何同时发挥作用,为企业提供最高的投资回报率。该课程旨在阐述大数据项目的五个阶段战略,使客户如何使用并充分利用大数据。这五个阶段包括:

  • 数据处理底层架构(阶段 1)
  • 数据采集和存储(阶段 2)
  • 数据访问和处理(阶段 3)
  • 数据统一和分析(阶段 4)
  • 数据安全/可视化/性能优化(阶段 5)

每个阶段均包括 Hadoop 核心组件和生态系统技术以及大数据技术或产品。学生将学习信息管理系统如何采用一种全面的方法将大数据(非结构化和半结构化)与关系数据(结构化)进行整合,从而发现更多嵌入大数据池中的价值。同时,通过:电子商务金融健康医疗等真实的商业级项目实训案例,完整的『端到端』业务流程演示与上机操作训练,让学生真正了解大数据行业背景以及企业实施技术需求,通过直观而具备针对性的训练使学生在最短时间内得到应用技术技能的提升,更进一步满足职业岗位对工作技能的需求。从而使学生能够学习到:

  • 大数据整体业务流程及系统组件部署模式;
  • 数据源捕获与多格式数据集成,实现『全』数据分析与挖掘;
  • 应用多种分析算法获得最佳预测计算模型;
  • 利用数据可视化分析系统展现最佳商业智能视图;
  • 通过参与商业项目研发流程,有效掌握岗位所需技能,实现精确匹配;
工程项目案例:构建用户行为分析推荐系统架构
工程项目案例:构建用户行为分析推荐系统架构