大数据工程实践系统环境

工程系统实践环境

专门为高校教师与学生定制化的设计出企业大数据项目开发综合环境,可供大数据专业学生或项目开发小组完成大数据全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装包含:系统环境,功能连接中间件,应用数据库,SQL 结构化大数据数据库,NoSQL 非结构化数据库,教学用示例数据资源,以及面向专业类开发,管理,调优等功能组件及应用软件,满足相关教学与实验所需的应用场景。完整的大数据生态部件包括:

  • Airflow – ELT数据采集、导入、处理管道
  • Crunch – 编写、测试、运行MapReduce管道的JAVA框架
  • Flume – 分布式海量日志流采集架构
  • HBase – Hadoop数据库,面向分布式可扩展的大数据存储
  • HCatalog – 对接不同数据处理工具的Hadoop表与存储管理接口
  • Hive – 使用SQL语法读取、写入分布式存储大数据集的数据仓库
  • HttpFS – 支持所有Hadoop文件系统读写操作的HTTP网关服务器
  • Hue – 可视化大数据分析工作平台
  • Impala – Hadoop本地分析数据库
  • Jupyter Notebook – Web应用程序,创建和共享包含实时代码,方程式,可视化和叙述文本的文档。同时可实现数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。
  • Kafka – 用于构建实时数据管道和流式应用程序
  • kxcyViz – 跨象乘云™可视化数据统计与多维分析探索平台
  • Llama – 协调、管理和监控Impala和YARN之间的集群资源
  • Mahout – 提供分布式线性代数的机器学习与数据挖掘框架
  • Oozie – 管理Hadoop作业的工作流调度程序系统
  • Open Refine – 数据清理与处理,格式转换工具,支持Web服务和外部数据扩展
  • Pig – 大型数据集并行分析平台
  • Rapid Miner – 数据科学团队工作平台,集成机器学习和预测模型部署
  • R &. RStudio – 统计运算与数据可视化环境及工作平台
  • Search (Solr) – 企业级分布式索引,检索,复制与负载均衡查询平台
  • Sentry – Hadoop集群数据和元数据细粒度角色授权系统
  • Snappy – 高效数据压缩/解压缩库
  • Spark – 最流行的用于大规模数据处理的高速通用引擎
  • Sqoop – 用于在Hadoop和结构化数据存储/关系数据库之间高效传输批量数据的工具
  • Whirr – 运行大数据云服务的库
  • ZooKeeper – 分布式服务器开发与运维协调枢纽