
数据科学与大数据分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的数据科学与大数据分析项目开发综合环境,可供数据科学与大数据技术(080910T)专业学生或项目开发小组完成数据科学,大数据分析,数据挖掘,机器学习,以及深度学习与新一代人工智能全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装多个流行的 Python 数据科学组件与套件库,满足相关教学与实验所需的应用场景;支持数据科学工程在各个 Python 版本以及 R 语言数据分析环境间自由切换。通过一键部署与统一管理组件,能实现 1,000 个以上数据科学基因链套件库的快速扩展。常见的数据科学生态套件包括:
- Caret – R 语言实用函数,旨在简化创建预测模型的过程,包含数据分割、预处理、功能选择、使用重采样进行模型调整、可变重要性估计等工具
- Cython – 针对 Python 编程语言和扩展 Cython 编程语言(基于Pyrex)优化的静态编译器。 使在 Python 上编写 C 扩展和 Python 本身一样简单
- Dask – 用于数据分析的灵活的并行计算库
- dplyr – R 语言数据操作语法工具,提供了一组一致的动词,帮助用户解决最常见的数据操作难题
- ggplot2 – R 语言数据可视化绘图包
- IRkernel – jupyter 的原生 R 语言内核
- IPython / Jupyter Notebook – 最流行的数据科学开发环境,支持 Web 应用程序,创建和共享包含实时代码,方程式,可视化和叙述文本的文档。同时可实现数据清理和转换,数值模拟,统计建模,数据可视化,机器学习等。
- Matplotlib – Python 2D 绘图库,可以在各种平台和交互式环境中生成高质量的数据图形
- NLTK – 先进的自然语言处理(NLP)工具库,用于分类、标记化、词干标记、解析和语义推理
- NetworkX – Python 复杂网络关系分析资源包,用于创建,操作和研究复杂网络的结构,动态和功能。
- Numba – 高性能计算库,可对 Python 代码编译,使其支持 CUDA 在 GPU 或多核 CPU 上執行
- Numexpr – 非常简单易用的 Numpy 性能提升工具,解决 NumPy 的性能问题。
- NumPy – 支持高级大量的维度数组与矩阵运算,并针对数组运算提供大量的数学函数库
- Pandas – Python 生态系统中最流行的数据分析库,能够完成读/写不同格式的数据、选择数据的子集、跨行/列计算、寻找并填写缺失的数据、在数据的独立组中应用操作、重塑数据成不同格式、合并多个数据集、先进的时序功能、通过 matplotlib 和 seaborn 进行可视化操作
- PySpark – Spark 的 Python API 接口
- RStudio – R 语言统计运算与数据可视化工作平台
- SciPy 库 – Scipy 库依赖于 NumPy,它提供便捷和快速的 N 维向量数组操作,作为科学计算工具集,主要用于统计、优化、集成、线性代数、傅里叶变换、信号和图像处理
- Shiny – 基于 R 语言的全新交互式数据分析平台,属于 RStudio 的子项目
- Spyder – Python 可视化开发环境,类似于 R 语言中的 RStudio
- Scikit-learn – 极为强大的机器学习库,提供了完善的数据挖掘和分析模型,以及工程算法导图
- Scikit-image – Python 图像处理算法集合库
- tidyr – R 语言数据处理包,用于数据清洗和整理,主要用于筛选、排列、选择、变形、汇总、分组
同时,通过快速扩展,能在短时间内快速部署如:H2O.ai,TensorFlow 等企业级深度学习与新一代人工智能平台,充分满足高等院校的科研与实训教学需求。