商务智能数据可视化分析科研教学实践环境

工程实践系统环境 —— 商务智能数据可视化分析科研教学实践环境
工程实践系统环境 —— 商务智能数据可视化分析科研教学实践环境

商务智能数据可视化分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的商务智能与大数据可视化分析实战综合环境。以提升高校社会科学类专业学生数据素养,培养商业数据分析师,数据新闻记者,数字图书馆及知识库管理员为人才定位,可供高职类大数据技术与应用(610215)专业学生,及新闻传播,社会科学,经济管理,统计数理学院等非计算机专业学生或项目研究小组完成数据整理,商务数据智能分析,数据可视化运营,可视化机器学习与数据挖掘,业务预测,报表输出等全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装完整的数据采集,数据整理,机器学习,数据可视化分析平台,并提供超过 30 款直观,操作简单的数据工具,并配备专为商务智能优化数据源,帮助文科类专业或仅具备初级编程基础的师生,通过掌握高效先进的数据处理与分析工具,也能应用大数据发掘更大的价值。主要数据组件及工具包括:

    • Business Intelligence Optimized Data Sources – 商务智能优化数据源,覆盖:气候环境、宏观经济、娱乐行业、金融行业、人力资源、公共服务及共享经济行业、零售行业、社交网络行业、体育行业、商务智能、运输行业、医疗行业
    • CartoDB – 交互式地图制作工具
    • CrowData – 文档协作验证和数据发布工具,否则将很难或不可能通过自动工具(如OCR)获取
    • DJHandbook – 权威的数据新闻资源指南,全球超过15万学生,研究人员和数据新闻从业人员使用这些资源学习数据新闻制作,并且不断拓展新的技术工具
    • DocumentCloud – 比 Dropbox 更为实用的文档共享工具
    • E-commerce Data Acquisition Platform – 针对国内主流电商平台,实现商品信息采集、评论采集;为媒体行业提供数据源,实现自动化采集数据
    • Geojournalism – 数据新闻记者,设计师和开发人员工具箱,使用地理数据进入数据可视化世界
    • Gephi – 全球领先的互联网社区关系网络分析工具
    • Json Parser – 在线 JSON 数据编译解释器
    • kxcy-bd-viz – 跨象乘云™大数据可视化探索平台(简称:KXCY-BD-VIZ)
    • kxcy-ml-vp – 跨象乘云™可视编程机器学习平台(简称:KXCY-ML-VP)
    • Latlong – 在线地理位置信息查询器(经纬度/GPS参数)支持鼠标指针定位
    • libreoffice – 国际化的开源项目,自由免费的新一代办公软件
    • mapstarter – 支持 GeoJSON,TopoJSON,及 ESRI 图形格式,将地理数据文件转换为网络地图
    • Mozilla Firefox – 开源浏览器并提供大量数据分析插件
    • MySQL – 全球最大开源数据库
    • OnlineOCR – 光学字符识别(Optical Character Recognition, OCR)技术,可以识别扫描件或照片中的文字
    • Open Refine – 全球最受欢迎的数据与资料整理平台,
    • R 语言 – 最流行的统计语言,除了能清洗数据、统计分析,若有程序包 Rvest,还可通过公开数据门户(世界银行、欧盟统计局等机构)的 API 抽取数据。R 是处理数据的好手,在程序包 tidyr 和 dplyr 的帮助下,可以实现合并、设置子集、聚合等多个功能。另外,通过开放并及时更新的社区CRAN(The Comprehensive R Archive Network)统计算法包,能获得各数据科学领域与行业的最前沿的机器学习算法模型。
    • Rstudio – R 语言统计运算与数据可视化工作平台
    • Tabula – 解放PDF文件中锁定数据表的工具
    • TimelineJS – 新闻事件时间轴制作工具,支持超过40种语言
    • Web Scraper – 专门从网页中提取数据的工具,包括免费的 Google Chrome Web Scraper 扩展插件和基于云的 Web Scraper
    • 草料二维码 – 在线二维码生成器

MySQL数据库管理与性能调优(90学时)

本课程面向初次接触数据库的学生,通过直观易懂的MySQL数据库,了解数据库基本原理与操作。MySQL是全球第二大企业级数据库系统,具有安全控制、数据对象操作、数据备份恢复等主要功能。这些功能保证了MySQL作为企业级数据库的可靠性、高性能和可维护性。本课程针对MySQL系统管理进行详细介绍,包括系统的安装、配置、数据库及表的创建、系统安全管理、数据库备份恢复、系统日志管理等方面的知识。学员通过本课程的学习,可以系统性了解如何正确安装MySQL数据库、创建和执行备份策略、创建安全的存储过程以更新和访问数据等等,还可以掌握MySQL数据库的安全知识、了解如何为用户正确分配访问权限、设置资源限制及访问控制等。在管理使用过程中,管理员将不可回避地遇到如何管理MySQL应用程序不断增长的数据、如何监控、诊断问题区域并调节MySQL以优化性能、如何配置、使用集群等诸多问题,管理员应通过这些高级方法来确保数据库的可靠性、高性能和可维护性。本课程还介绍了性能调优方面的知识,包括如何充分利用MySQL增强特征来编写查询语句以处理查询和索引,教授学员如何评估架构、使用调优工具、配置数据库性能、调优应用程序和SQL代码、调优服务器、检查存储引擎等常用调优知识。

数据预处理与数据整理(32学时)

机器学习和深度学习项目在大多数企业中变得越来越重要。同时,一个完整的项目流程包括数据整理(Data Preparation)、构建分析模型以及部署至生产环境。该流程是一个:洞察与行动的循环,此循环能不断地改进分析模型。当你打算使用机器学习或深度学习技术来构建分析模型时,一个重要的任务是集成并通过各种数据源来准备数据集,这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的80%。显然,数据整理是数据科学的核心。它包括数据清洗和特征工程。另外领域知识(Domain Knowledge)也非常重要,它有助于获得好的结果。数据整理不能完全自动化,至少在初始阶段不能。

通常,数据整理会占去整个分析管道(流程)的60%到80%。

但是,为了使机器学习算法在数据集上获得最优的精确性,数据整理必不可少。《纽约时报》指出,数据清洗与数据整理等预设工作,是大数据科学家获得科研及业务成果的关键。本课程重点让学生掌握强大的数据预处理和数据整理工具,而且不局限与计算机专业学生使用,实现对大数据预处理与数据整理标准化流程的认知,掌握,以及扩展。让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于Web服务实现数据扩展处理等各项关键技术。

云计算及大数据引擎管理(60学时)

云计算已经成为现代企业信息系统架构的标准模型,无论采用亚马逊还是阿里云,其云计算基本架构都以开源OpenStack为模板。通过本课程,学生将了解“云计算”基本架构,IaaS,SaaS,PaaS及核心功能模块,同时了解如何在“云计算”平台上通过引入数据引擎服务实现大数据Hadoop集群的配置与管理。大数据即服务 —— BDaaS,旨在为用户提供简单部署在“云计算”架构之上的Hadoop集群的能力,并且部署数据处理框架,如:

  • Hadoop
  • Spark
  • Storm
  • Cloudera CDH
  • Hortonworks HDP
  • MapR

通过简单的配置,能够迅速的把大数据集群机构部署起来,支持集群的扩容和收缩。以Spark/Storm应用为代表的大数据分析,是最适合在云上运行的业务之一。

大数据基础与实战(90学时)

本课程是真正面向企业大数据业务的实践性课程,基于跨象乘云公司集成部署的大数据工程实践系统环境,旨在帮助学生了解:各种大数据技术如何运作,这些技术应何时用于较大规模的大数据项目中,它们如何同时发挥作用,为企业提供最高的投资回报率。该课程旨在阐述大数据项目的五个阶段战略,使学生了解如何使用并充分利用大数据。这五个阶段包括:

  • 数据处理底层架构(阶段1)
  • 数据采集和存储(阶段2)
  • 数据访问和处理(阶段3)
  • 数据统一和分析(阶段4)
  • 数据安全/可视化/性能优化(阶段5)

每个阶段均包括Hadoop核心组件和生态系统技术以及大数据技术或产品。学生将学习信息管理系统如何采用一种全面的方法将大数据(非结构化和半结构化)与关系数据(结构化)进行整合,从而发现更多嵌入大数据池中的价值。

基于可视化工作流的机器学习与分析预测(60学时)

了解并强化数据挖掘的基本概念,学习如何使用数据库内分析,实现预测分析功能。数据挖掘是图形化扩展工具,用于直接对数据库内数据进行业务分析。建立多种数据挖掘模型,通过将成熟的模型应用到新数据中,实现业务预测与分析洞察。通过SQL API自动对数据进行实时挖掘,无需数据迁移与复制,最大化实现数据安全。本课程通过描述基本的数据挖掘概念,是学生能准确描述预测分析的优势。理解数据挖掘的主要任务,描述数据挖掘业务流内的关键步骤。使用数据挖掘建立,改进,应用多种数据模型。通过项目实际训练,实现对各种业务需求类型的分析与洞察,包括:预测个体行为,价值预测,关联时间搜索。

商务智能数据化运营管理(60学时)

本课程面向数据科学与大数据应用专业建设,定位一线运维人员岗位需求实现人才培养规划。通过直观的可视化操作界面,先进的商务智能数据可视化分析平台,并穿插海量真实行业数据分析案例,实现业务逻辑与商务思维应用在大数据分析领域的结合,精准匹配行业需求并提升职业竞争能力。不但对于计算机专业学生,即便是经管学院,数理学院,乃至文史类专业学生都能利用商务智能数据可视化分析平台,实现对数据的精确分析。