数据科学与大数据分析科研教学实践环境

数据科学与大数据分析工程实践系统环境
工程实践系统环境 —— 数据科学与大数据分析工程实践系统环境

数据科学与大数据分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的数据科学与大数据分析项目开发综合环境,可供数据科学与大数据技术(080910T)专业学生或项目开发小组完成数据科学,大数据分析,数据挖掘,机器学习,以及深度学习与新一代人工智能全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装多个流行的 Python 数据科学组件与套件库,满足相关教学与实验所需的应用场景;支持数据科学工程在各个 Python 版本以及 R 语言数据分析环境间自由切换。通过一键部署与统一管理组件,能实现 1,000 个以上数据科学基因链套件库的快速扩展。常见的数据科学生态套件包括:

  • Caret – R 语言实用函数,旨在简化创建预测模型的过程,包含数据分割、预处理、功能选择、使用重采样进行模型调整、可变重要性估计等工具
  • Cython – 针对 Python 编程语言和扩展 Cython 编程语言(基于Pyrex)优化的静态编译器。 使在 Python 上编写 C 扩展和 Python 本身一样简单
  • Dask – 用于数据分析的灵活的并行计算库
  • dplyr – R 语言数据操作语法工具,提供了一组一致的动词,帮助用户解决最常见的数据操作难题
  • ggplot2 – R 语言数据可视化绘图包
  • IRkernel – jupyter 的原生 R 语言内核
  • IPython / Jupyter Notebook – 最流行的数据科学开发环境,支持 Web 应用程序,创建和共享包含实时代码,方程式,可视化和叙述文本的文档。同时可实现数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。
  • Matplotlib – Python 2D 绘图库,可以在各种平台和交互式环境中生成高质量的数据图形
  • NLTK – 先进的自然语言处理(NLP)工具库,用于分类、标记化、词干标记、解析和语义推理
  • NetworkX – Python 复杂网络关系分析资源包,用于创建,操作和研究复杂网络的结构,动态和功能。
  • Numba – 高性能计算库,可对 Python 代码编译,使其支持 CUDA 在 GPU 或多核 CPU 上執行
  • Numexpr – 非常简单易用的 Numpy 性能提升工具,解决 NumPy 的性能问题。
  • NumPy – 支持高级大量的维度数组与矩阵运算,并针对数组运算提供大量的数学函数库
  • Pandas – Python 生态系统中最流行的数据分析库,能够完成读/写不同格式的数据、选择数据的子集、跨行/列计算、寻找并填写缺失的数据、在数据的独立组中应用操作、重塑数据成不同格式、合并多个数据集、先进的时序功能、通过 matplotlib 和 seaborn 进行可视化操作
  • PySpark – Spark 的 Python API 接口
  • RStudio – R 语言统计运算与数据可视化工作平台
  • SciPy 库 – Scipy 库依赖于 NumPy,它提供便捷和快速的 N 维向量数组操作,作为科学计算工具集,主要用于统计、优化、集成、线性代数、傅里叶变换、信号和图像处理
  • Shiny – 基于 R 语言的全新交互式数据分析平台,属于 RStudio 的子项目
  • Spyder – Python 可视化开发环境,类似于 R 语言中的 RStudio
  • Scikit-learn – 极为强大的机器学习库,提供了完善的数据挖掘和分析模型,以及工程算法导图
  • Scikit-image – Python 图像处理算法集合库
  • tidyr – R 语言数据处理包,用于数据清洗和整理,主要用于筛选、排列、选择、变形、汇总、分组

同时,通过快速扩展,能在短时间内快速部署如:H2O.aiTensorFlow 等企业级深度学习与新一代人工智能平台,充分满足高等院校的科研与实训教学需求。

大数据企业级仿真科研教学实践环境

大数据工程实践系统环境
工程实践系统环境 —— 大数据企业级仿真科研教学实践环境

大数据企业级仿真科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的企业级大数据项目开发综合环境,可供大数据专业学生或项目开发小组完成大数据全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装包含:系统环境,功能连接中间件,应用数据库,SQL 结构化大数据数据库,NoSQL 非结构化数据库,教学用示例数据资源,以及面向专业类开发,管理,调优等功能组件及应用软件,满足相关教学与实验所需的应用场景。完整的大数据生态部件包括:

  • Airflow – ELT数据采集、导入、处理管道
  • Crunch – 编写、测试、运行MapReduce管道的JAVA框架
  • Flume – 分布式海量日志流采集架构
  • HBase – Hadoop数据库,面向分布式可扩展的大数据存储
  • HCatalog – 对接不同数据处理工具的Hadoop表与存储管理接口
  • Hive – 使用SQL语法读取、写入分布式存储大数据集的数据仓库
  • HttpFS – 支持所有Hadoop文件系统读写操作的HTTP网关服务器
  • Hue – 可视化大数据分析工作平台
  • Impala – Hadoop本地分析数据库
  • Jupyter Notebook – Web应用程序,创建和共享包含实时代码,方程式,可视化和叙述文本的文档。同时可实现数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。
  • Kafka – 用于构建实时数据管道和流式应用程序
  • kxcyViz – 跨象乘云™可视化数据统计与多维分析探索平台
  • Llama – 协调、管理和监控Impala和YARN之间的集群资源
  • Mahout – 提供分布式线性代数的机器学习与数据挖掘框架
  • Oozie – 管理Hadoop作业的工作流调度程序系统
  • Open Refine – 数据清理与处理,格式转换工具,支持Web服务和外部数据扩展
  • Pig – 大型数据集并行分析平台
  • Rapid Miner – 数据科学团队工作平台,集成机器学习和预测模型部署
  • R &. RStudio – 统计运算与数据可视化环境及工作平台
  • Search (Solr) – 企业级分布式索引,检索,复制与负载均衡查询平台
  • Sentry – Hadoop集群数据和元数据细粒度角色授权系统
  • Snappy – 高效数据压缩/解压缩库
  • Spark – 最流行的用于大规模数据处理的高速通用引擎
  • Sqoop – 用于在Hadoop和结构化数据存储/关系数据库之间高效传输批量数据的工具
  • Whirr – 运行大数据云服务的库
  • ZooKeeper – 分布式服务器开发与运维协调枢纽

JAVA 8新特性(90学时)+ 认证强化

毫无疑问,Java 8发行版是自Java 5(发行于2004,已经过了相当一段时间了)以来最具革命性的版本。Java 8为Java语言、编译器、类库、开发工具与JVM(Java虚拟机)带来了大量新特性。面向已经具备Java课程体系的高校,我们将提供面向Java语言新一代版本Java 8的新特性升级课程,在本课程中,学生通过权威及标准化的教育资源将了解到55个关键的Java新特性,通过大量精彩的案例演示与教学快速掌握最新的开发技术,并保证对技术的先进性。包括Lambda表达式,日期/时间API,JavaScript引擎Nashorn,Parallel Stream,Java飞行记录器…等核心特性将被详细介绍并提供大量的动手实验操作,代码开发及编写练习。同时,本课程还包含:

强化指导单元。

数据库基础(90学时)

在当今以数据为推动力的经济中,计算机科学和业务课程如果没有数据库和数据管理方面的课程,就不能说是完善的。应了解计算机如何组织、使用和处理数据,这对于了解如何使用我们掌握的数据以及如何寻求创新方式以更好地管理和使用数据都至关重要。数据库出现由来已久,不过总会出现新的内容需要学习。《数据库基础》是第一门入门课程,本课程向学生介绍基本关系数据库概念。本课程向学生教授关系数据库术语以及数据建模概念,构建实体关系图 (ERD) 及映射 ERD 等知识。使用 Oracle SQL Developer Data Modeler 构建 ERD,使用结构化查询语言 (SQL) 与关系数据库进行交互并处理数据库中的数据。使用 Oracle Application Express 提供动手参与的实践活动。利用基于项目的学习技术,学生将创建和处理项目,这对他们提出了为企业或组织设计、实施和演示数据库解决方案的挑战。本课程通过一个学术数据库/学校信息数据库的建模与创建的综合案例,为项目贯穿整个课程的多个知识点。同时也包含了多个包括:电子图书馆,酒店,保险,零售,租赁等多个行业的业务分析。

数据库设计(90学时)

在本课程中,学生将学习分析复杂的业务方案并创建数据模型 - 组织的信息的概念化表示形式。学生 将实施其数据库设计:使用 SQL创建一个物理数据库。 在此期间会讲解基本的 SQL 语法以及构造有效 SQL 语句的规则。本课程最后是创建一个项目,让学生设计、实施和演示企业或组织的数据库解决方案。本课程最后是创建一个项目,让学生设计、实施和演示企业或组织的数据库解决方案。HealthOne 医疗数据库建模项目为一家专门为医疗行业开发数据库的小型数据库咨询公司,不久前签下了一份合同,为中型医疗保险公司开发数据库应用程序系统的数据模型,以跟踪记录医疗索赔,其中包括患者信息、提供方(医生)信息、患者就诊信息以及医生为患者所开的处方药。需要记录患者姓名、地址、电话、电子邮件等信息,以及每名患者的主治医生、患者保险标识号和保险公司名称。此外,还需记录每名医生的相关信息,例如:专业及其隶属医院、电话和地址等。对于医院本身,需要掌握具体位置和联系方式。同时,还需要在这一特定数据库中跟踪医护人员为每名患者所开的处方,以便确定索赔资格,其中包括所开药品的一些基本信息,从而确保不会与患者的其他处方相冲突。需要了解每种药品的名称、用途以及可能的副作用。最后,该数据库将用于跟踪趋势,并根据累积的数据进行推断预测建模。

数据库建模与编程(90学时)

在本课程中,学生将学习分析复杂的业务方案并创建数据模型 - 组织的信息的概念化表示形式。学生 将实施其数据库设计:使用SQL创建一个物理数据库。 在此期间会讲解基本的SQL语法以及构造有效SQL语句的规则。本课程结合全球快餐连锁行业,人力资源管理,流行音乐行业等项目案例,贯穿数据库设计与建模内容。最后通过OFlix在线租赁综合案例作为本课程的结业最终项目。

数据预处理与数据整理(32学时)

机器学习和深度学习项目在大多数企业中变得越来越重要。同时,一个完整的项目流程包括数据整理(Data Preparation)、构建分析模型以及部署至生产环境。该流程是一个:洞察与行动的循环,此循环能不断地改进分析模型。当你打算使用机器学习或深度学习技术来构建分析模型时,一个重要的任务是集成并通过各种数据源来准备数据集,这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的80%。显然,数据整理是数据科学的核心。它包括数据清洗和特征工程。另外领域知识(Domain Knowledge)也非常重要,它有助于获得好的结果。数据整理不能完全自动化,至少在初始阶段不能。

通常,数据整理会占去整个分析管道(流程)的60%到80%。

但是,为了使机器学习算法在数据集上获得最优的精确性,数据整理必不可少。《纽约时报》指出,数据清洗与数据整理等预设工作,是大数据科学家获得科研及业务成果的关键。本课程重点让学生掌握强大的数据预处理和数据整理工具,而且不局限与计算机专业学生使用,实现对大数据预处理与数据整理标准化流程的认知,掌握,以及扩展。让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于Web服务实现数据扩展处理等各项关键技术。

云计算及大数据引擎管理(60学时)

云计算已经成为现代企业信息系统架构的标准模型,无论采用亚马逊还是阿里云,其云计算基本架构都以开源OpenStack为模板。通过本课程,学生将了解“云计算”基本架构,IaaS,SaaS,PaaS及核心功能模块,同时了解如何在“云计算”平台上通过引入数据引擎服务实现大数据Hadoop集群的配置与管理。大数据即服务 —— BDaaS,旨在为用户提供简单部署在“云计算”架构之上的Hadoop集群的能力,并且部署数据处理框架,如:

  • Hadoop
  • Spark
  • Storm
  • Cloudera CDH
  • Hortonworks HDP
  • MapR

通过简单的配置,能够迅速的把大数据集群机构部署起来,支持集群的扩容和收缩。以Spark/Storm应用为代表的大数据分析,是最适合在云上运行的业务之一。

大数据基础与实战(90学时)

本课程是真正面向企业大数据业务的实践性课程,基于跨象乘云公司集成部署的大数据工程实践系统环境,旨在帮助学生了解:各种大数据技术如何运作,这些技术应何时用于较大规模的大数据项目中,它们如何同时发挥作用,为企业提供最高的投资回报率。该课程旨在阐述大数据项目的五个阶段战略,使学生了解如何使用并充分利用大数据。这五个阶段包括:

  • 数据处理底层架构(阶段1)
  • 数据采集和存储(阶段2)
  • 数据访问和处理(阶段3)
  • 数据统一和分析(阶段4)
  • 数据安全/可视化/性能优化(阶段5)

每个阶段均包括Hadoop核心组件和生态系统技术以及大数据技术或产品。学生将学习信息管理系统如何采用一种全面的方法将大数据(非结构化和半结构化)与关系数据(结构化)进行整合,从而发现更多嵌入大数据池中的价值。

下一代大数据处理引擎(120学时)

流数据是指由数千个数据源持续生成的数据,通常也同时以数据记录的形式发送,规模较小(约几千字节)。流数据包括多种数据,例如客户使用移动或Web应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接设备或仪器的遥测数据。此类数据需要按记录或根据滑动时间窗口按顺序进行递增式处理,可用于多种分析,包括关联、聚合、筛选和取样。借助此类分析得出的信息,公司得以深入了解其业务和客户活动的方方面面。本课程面向当前最为热门的流式数据处理与分析框架:

  • Spark
  • Storm
  • Flink

让学生在掌握大数据批处理框架Apache Hadoop的基础上,深入了解实时流式数据的采集,访问,分析流程,紧跟大数据行业技术发展步伐,进一步掌握企业应用的流处理框架Storm;当前最为流行的企业大数据混合框架Spark与Spark SQL,Spark Streaming,Spark MLlib,Spark GraphX,Spark R等完整的组件家族;以及被称为第四代大数据通用处理引擎的Flink。课程穿插多个流式数据,图数据,日志数据,物联网IoT数据的真实案例,使学生在完成本实战课程后真正了解相关技术框架的业务应用与价值体现场景。

基于可视化工作流的机器学习与分析预测(60学时)

了解并强化数据挖掘的基本概念,学习如何使用数据库内分析,实现预测分析功能。数据挖掘是图形化扩展工具,用于直接对数据库内数据进行业务分析。建立多种数据挖掘模型,通过将成熟的模型应用到新数据中,实现业务预测与分析洞察。通过SQL API自动对数据进行实时挖掘,无需数据迁移与复制,最大化实现数据安全。本课程通过描述基本的数据挖掘概念,是学生能准确描述预测分析的优势。理解数据挖掘的主要任务,描述数据挖掘业务流内的关键步骤。使用数据挖掘建立,改进,应用多种数据模型。通过项目实际训练,实现对各种业务需求类型的分析与洞察,包括:预测个体行为,价值预测,关联时间搜索。

Python数据分析(60学时)

Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言,是目前云计算OpenStack的标准开发语言。同时,Python拥有非常丰富的库,使其在数据分析领域也有广泛的应用。本课程涵括Python在大数据分析领域中的五大核心应用:

  • 数据统计;(NumPy/Pandas库)
  • 数据采集;(Scrapy Web爬虫采集)
  • 数据处理;(清理、转换、合并、重塑)
  • 数据分析;(数据聚合与时间序列)
  • 数据可视化;(Matplotlib库)

R语言统计分析与机器学习(90学时)

R为统计员,数据分析师,数据科学家提供数据统计与高级分析的语言及开发环境,同时采用复杂的图形模式体现分析结果。通过本课程,学生将利用R语言对数据库数据进行调整。学习如何通过R语言拓展数据库进行预测及分析的知识与技巧。了解如何在SQL与R中独立或者数据/任务并行模式中运行R语言脚本。同时,在大数据背景下通过丰富的动手操作实验,了解如何用R语言实现:

  • 获取数据(从各种数据源将数据导入程序);
  • 整理数据(编码缺失值、修复或删除错误数据)
  • 注释数据(以记住每段数据的含义)
  • 总结数据(通过描述性统计量了解数据的概况)
  • 数据可视化(一图胜千言)
  • 数据建模(解释数据间的关系,检验假设)
  • 整理结果(创建具有出版水平的表格和图形)