下一代大数据处理引擎(120学时)

流数据是指由数千个数据源持续生成的数据,通常也同时以数据记录的形式发送,规模较小(约几千字节)。流数据包括多种数据,例如客户使用移动或Web应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接设备或仪器的遥测数据。此类数据需要按记录或根据滑动时间窗口按顺序进行递增式处理,可用于多种分析,包括关联、聚合、筛选和取样。借助此类分析得出的信息,公司得以深入了解其业务和客户活动的方方面面。本课程面向当前最为热门的流式数据处理与分析框架:

  • Spark
  • Storm
  • Flink

让学生在掌握大数据批处理框架Apache Hadoop的基础上,深入了解实时流式数据的采集,访问,分析流程,紧跟大数据行业技术发展步伐,进一步掌握企业应用的流处理框架Storm;当前最为流行的企业大数据混合框架Spark与Spark SQL,Spark Streaming,Spark MLlib,Spark GraphX,Spark R等完整的组件家族;以及被称为第四代大数据通用处理引擎的Flink。课程穿插多个流式数据,图数据,日志数据,物联网IoT数据的真实案例,使学生在完成本实战课程后真正了解相关技术框架的业务应用与价值体现场景。