商务智能数据可视化分析科研教学实践环境

工程实践系统环境 —— 商务智能数据可视化分析科研教学实践环境
工程实践系统环境 —— 商务智能数据可视化分析科研教学实践环境

商务智能数据可视化分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的商务智能与大数据可视化分析实战综合环境。以提升高校社会科学类专业学生数据素养,培养商业数据分析师,数据新闻记者,数字图书馆及知识库管理员为人才定位,可供高职类大数据技术与应用(610215)专业学生,及新闻传播,社会科学,经济管理,统计数理学院等非计算机专业学生或项目研究小组完成数据整理,商务数据智能分析,数据可视化运营,可视化机器学习与数据挖掘,业务预测,报表输出等全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装完整的数据采集,数据整理,机器学习,数据可视化分析平台,并提供超过 30 款直观,操作简单的数据工具,并配备专为商务智能优化数据源,帮助文科类专业或仅具备初级编程基础的师生,通过掌握高效先进的数据处理与分析工具,也能应用大数据发掘更大的价值。主要数据组件及工具包括:

    • Business Intelligence Optimized Data Sources – 商务智能优化数据源,覆盖:气候环境、宏观经济、娱乐行业、金融行业、人力资源、公共服务及共享经济行业、零售行业、社交网络行业、体育行业、商务智能、运输行业、医疗行业
    • CartoDB – 交互式地图制作工具
    • CrowData – 文档协作验证和数据发布工具,否则将很难或不可能通过自动工具(如OCR)获取
    • DJHandbook – 权威的数据新闻资源指南,全球超过15万学生,研究人员和数据新闻从业人员使用这些资源学习数据新闻制作,并且不断拓展新的技术工具
    • DocumentCloud – 比 Dropbox 更为实用的文档共享工具
    • E-commerce Data Acquisition Platform – 针对国内主流电商平台,实现商品信息采集、评论采集;为媒体行业提供数据源,实现自动化采集数据
    • Geojournalism – 数据新闻记者,设计师和开发人员工具箱,使用地理数据进入数据可视化世界
    • Gephi – 全球领先的互联网社区关系网络分析工具
    • Json Parser – 在线 JSON 数据编译解释器
    • kxcy-bd-viz – 跨象乘云™大数据可视化探索平台(简称:KXCY-BD-VIZ)
    • kxcy-ml-vp – 跨象乘云™可视编程机器学习平台(简称:KXCY-ML-VP)
    • Latlong – 在线地理位置信息查询器(经纬度/GPS参数)支持鼠标指针定位
    • libreoffice – 国际化的开源项目,自由免费的新一代办公软件
    • mapstarter – 支持 GeoJSON,TopoJSON,及 ESRI 图形格式,将地理数据文件转换为网络地图
    • Mozilla Firefox – 开源浏览器并提供大量数据分析插件
    • MySQL – 全球最大开源数据库
    • OnlineOCR – 光学字符识别(Optical Character Recognition, OCR)技术,可以识别扫描件或照片中的文字
    • Open Refine – 全球最受欢迎的数据与资料整理平台,
    • R 语言 – 最流行的统计语言,除了能清洗数据、统计分析,若有程序包 Rvest,还可通过公开数据门户(世界银行、欧盟统计局等机构)的 API 抽取数据。R 是处理数据的好手,在程序包 tidyr 和 dplyr 的帮助下,可以实现合并、设置子集、聚合等多个功能。另外,通过开放并及时更新的社区CRAN(The Comprehensive R Archive Network)统计算法包,能获得各数据科学领域与行业的最前沿的机器学习算法模型。
    • Rstudio – R 语言统计运算与数据可视化工作平台
    • Tabula – 解放PDF文件中锁定数据表的工具
    • TimelineJS – 新闻事件时间轴制作工具,支持超过40种语言
    • Web Scraper – 专门从网页中提取数据的工具,包括免费的 Google Chrome Web Scraper 扩展插件和基于云的 Web Scraper
    • 草料二维码 – 在线二维码生成器

数据科学与大数据分析科研教学实践环境

数据科学与大数据分析工程实践系统环境
工程实践系统环境 —— 数据科学与大数据分析工程实践系统环境

数据科学与大数据分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的数据科学与大数据分析项目开发综合环境,可供数据科学与大数据技术(080910T)专业学生或项目开发小组完成数据科学,大数据分析,数据挖掘,机器学习,以及深度学习与新一代人工智能全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装多个流行的 Python 数据科学组件与套件库,满足相关教学与实验所需的应用场景;支持数据科学工程在各个 Python 版本以及 R 语言数据分析环境间自由切换。通过一键部署与统一管理组件,能实现 1,000 个以上数据科学基因链套件库的快速扩展。常见的数据科学生态套件包括:

  • Caret – R 语言实用函数,旨在简化创建预测模型的过程,包含数据分割、预处理、功能选择、使用重采样进行模型调整、可变重要性估计等工具
  • Cython – 针对 Python 编程语言和扩展 Cython 编程语言(基于Pyrex)优化的静态编译器。 使在 Python 上编写 C 扩展和 Python 本身一样简单
  • Dask – 用于数据分析的灵活的并行计算库
  • dplyr – R 语言数据操作语法工具,提供了一组一致的动词,帮助用户解决最常见的数据操作难题
  • ggplot2 – R 语言数据可视化绘图包
  • IRkernel – jupyter 的原生 R 语言内核
  • IPython / Jupyter Notebook – 最流行的数据科学开发环境,支持 Web 应用程序,创建和共享包含实时代码,方程式,可视化和叙述文本的文档。同时可实现数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。
  • Matplotlib – Python 2D 绘图库,可以在各种平台和交互式环境中生成高质量的数据图形
  • NLTK – 先进的自然语言处理(NLP)工具库,用于分类、标记化、词干标记、解析和语义推理
  • NetworkX – Python 复杂网络关系分析资源包,用于创建,操作和研究复杂网络的结构,动态和功能。
  • Numba – 高性能计算库,可对 Python 代码编译,使其支持 CUDA 在 GPU 或多核 CPU 上執行
  • Numexpr – 非常简单易用的 Numpy 性能提升工具,解决 NumPy 的性能问题。
  • NumPy – 支持高级大量的维度数组与矩阵运算,并针对数组运算提供大量的数学函数库
  • Pandas – Python 生态系统中最流行的数据分析库,能够完成读/写不同格式的数据、选择数据的子集、跨行/列计算、寻找并填写缺失的数据、在数据的独立组中应用操作、重塑数据成不同格式、合并多个数据集、先进的时序功能、通过 matplotlib 和 seaborn 进行可视化操作
  • PySpark – Spark 的 Python API 接口
  • RStudio – R 语言统计运算与数据可视化工作平台
  • SciPy 库 – Scipy 库依赖于 NumPy,它提供便捷和快速的 N 维向量数组操作,作为科学计算工具集,主要用于统计、优化、集成、线性代数、傅里叶变换、信号和图像处理
  • Shiny – 基于 R 语言的全新交互式数据分析平台,属于 RStudio 的子项目
  • Spyder – Python 可视化开发环境,类似于 R 语言中的 RStudio
  • Scikit-learn – 极为强大的机器学习库,提供了完善的数据挖掘和分析模型,以及工程算法导图
  • Scikit-image – Python 图像处理算法集合库
  • tidyr – R 语言数据处理包,用于数据清洗和整理,主要用于筛选、排列、选择、变形、汇总、分组

同时,通过快速扩展,能在短时间内快速部署如:H2O.aiTensorFlow 等企业级深度学习与新一代人工智能平台,充分满足高等院校的科研与实训教学需求。

大数据企业级仿真科研教学实践环境

大数据工程实践系统环境
工程实践系统环境 —— 大数据企业级仿真科研教学实践环境

大数据企业级仿真科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的企业级大数据项目开发综合环境,可供大数据专业学生或项目开发小组完成大数据全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装包含:系统环境,功能连接中间件,应用数据库,SQL 结构化大数据数据库,NoSQL 非结构化数据库,教学用示例数据资源,以及面向专业类开发,管理,调优等功能组件及应用软件,满足相关教学与实验所需的应用场景。完整的大数据生态部件包括:

  • Airflow – ELT数据采集、导入、处理管道
  • Crunch – 编写、测试、运行MapReduce管道的JAVA框架
  • Flume – 分布式海量日志流采集架构
  • HBase – Hadoop数据库,面向分布式可扩展的大数据存储
  • HCatalog – 对接不同数据处理工具的Hadoop表与存储管理接口
  • Hive – 使用SQL语法读取、写入分布式存储大数据集的数据仓库
  • HttpFS – 支持所有Hadoop文件系统读写操作的HTTP网关服务器
  • Hue – 可视化大数据分析工作平台
  • Impala – Hadoop本地分析数据库
  • Jupyter Notebook – Web应用程序,创建和共享包含实时代码,方程式,可视化和叙述文本的文档。同时可实现数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。
  • Kafka – 用于构建实时数据管道和流式应用程序
  • kxcyViz – 跨象乘云™可视化数据统计与多维分析探索平台
  • Llama – 协调、管理和监控Impala和YARN之间的集群资源
  • Mahout – 提供分布式线性代数的机器学习与数据挖掘框架
  • Oozie – 管理Hadoop作业的工作流调度程序系统
  • Open Refine – 数据清理与处理,格式转换工具,支持Web服务和外部数据扩展
  • Pig – 大型数据集并行分析平台
  • Rapid Miner – 数据科学团队工作平台,集成机器学习和预测模型部署
  • R &. RStudio – 统计运算与数据可视化环境及工作平台
  • Search (Solr) – 企业级分布式索引,检索,复制与负载均衡查询平台
  • Sentry – Hadoop集群数据和元数据细粒度角色授权系统
  • Snappy – 高效数据压缩/解压缩库
  • Spark – 最流行的用于大规模数据处理的高速通用引擎
  • Sqoop – 用于在Hadoop和结构化数据存储/关系数据库之间高效传输批量数据的工具
  • Whirr – 运行大数据云服务的库
  • ZooKeeper – 分布式服务器开发与运维协调枢纽