本课程面向数据科学与大数据应用专业建设,定位一线运维人员岗位需求实现人才培养规划。基于商务智能数据可视化分析科研教学实践环境,通过直观的可视化操作界面,先进的商务智能数据可视化分析平台,并穿插海量真实行业数据分析案例,实现业务逻辑与商务思维应用在大数据分析领域的结合,精准匹配行业需求并提升职业竞争能力。不但对于计算机专业学生,即便是经管学院,数理学院,乃至文史类专业学生都能利用商务智能数据可视化分析平台,实现对数据的精确分析。[……]
标签: 080910T
《Spark 框架实战》课程
Spark 是当前大数据行业内的事实标准,是由 UC Berkeley AMP lab (加州大学伯克利的 AMP 实验室)开源的类 Hadoop MapReduce 的通用并行框架,Spark 拥有 Hadoop MapReduce 所具有的优点,但不同于 MapReduce 的是 Job 中间结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,[……]
《智能数据挖掘》课程
在数据科学技术迅猛发展的今天,各行业都意识到大数据人才,算法工程师的重要性。同时,许多目前大部分机器学习,人工智能平台均需要一定的编程基础。造成许多非计算机专业的经管类,统计及数理类学生,无法施展其在算法上的竞争力,书本上学到的数据科学知识也无法在实验环境中验证。本课程配套可视编程机器学习平台,通过直观的交互式可视化编程界面,让没有编程能力的学生,同样能完成非结构化数据处理,数据挖掘,机器学习,模型分析,算法优化等操作。同时为高等院校深化数据科学与大数据技术理论教学,并培养实际动手能力的应用型人才,提供强力的支撑。
课程概要:了解并强化数据挖掘的基本概念,学习如何使用数据进行分析,实现预[……]
《Python 数据分析》课程
Python是一种面向对象、直译式计算机程序设计语言,由 Guido van Rossum 于 1989 年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python 又被称之为胶水语言,是目前『云计算』 Openstack 的标准开发语言。同时,Python 拥有非常丰富的库,使其在数据分析领域也有广泛的应用。本课程涵括 Python 在大数据分析领域中的五大核心应用:
- 数据统计;(NumPy/Pandas 库)
- 数据采集;(Scrapy Web 爬虫采集)
- 数据处理;(清理、转换、合并、重塑)
- 数据分析;(数据聚合与时间序列)
- 数据可视化;[……]
《特征工程》课程
特征工程也被称为特征构造,是从现有数据中构造新的特征从而训练机器学习模型的过程,同时也是传统模式识别技术的升级。机器学习算法只能从我们给定的数据中学习,所以构造一个和任务相关的特征是至关重要的。通常,特征工程是一个冗长的人工过程,依赖于领域知识、直觉和数据操作。这个过程可能是极其枯燥的,同时最终得到的特征将会受到人的主观性和时间的限制。特征工程自动化旨在通过从数据集中自动构造候选特征,并从中选择最优特征用于训练来帮助数据科学家。
人工智能特征分析工程平台,旨在通过从数据集中自动构造候选特征,并从中选择最优特征用于训练来帮助数据科学家与人工智能工程人员,自动从现有数据中构造新的特征从而训练[……]
《机器学习》课程
在如今这个处处以数据驱动的世界中,机器学习,深度学习,人工智能正变得越来越大众化。在大数据的爆发性增长背景下,当今的机器学习技术已经被广泛地应用于不同领域,如搜索引擎、机器人、无人驾驶汽车等。机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。
本课程,覆盖机器学习核心算法模型,为学生打下坚实的机器学习算法模型基础,通过超过 20 个实战项目,使学生从技术原理,到[……]
《深度学习》课程
本课程,是更全面介绍深度学习各类神经网络:CNN、RNN、LSTM 及框架:TensorFlow,Keras,Caffe 等的进阶课程。学生在本课程中将进一步学习深度学习的技术、术语和数学原理,理解基础神经网络架构、前馈网络、卷积网络和循环网络结构,认识如何恰当地构建和训练这些模型,了解并解释深度学习的实际应用,并使用“预训练”模型达到最佳结果。同时,配合神经网络训练可视化引擎,以及项目实现代码,让学生更为直观的了解深度学习技术在经典数据集 MNIST,CIFAR-10 上的工作过程。学生在完成本课程后,将能独立完成时装服饰图片分类,电影评论文字分类,房地产价格回归预测,使用循环神经网络实现文[……]
《时间序列分析》课程
时间序列是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。时间序列法是一种定量预测方法,亦称简单外延方法,在统计学中作为一种常用的预测手段被广泛应用。时间序列分析在第二次世界大战前应用于经济预测。二次大战中和战后,在军事科学、空间科学、气象预报和工业自动化等部门的应用更加广泛。时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。时间序列构成要素是:现象所属的时间,反映现象发展水平的指标数值。
本课程向学生详细讲解时间序列分析原理[……]
《异常检测》课程
异常检测(Anomaly Detection 或 Outlier Detection)指的是通过数据挖掘手段识别数据中的『异常点』,常见的使用案例包括风控领域(如识别信用卡诈骗),网络通信领域发现异常信息流,或机械加工领域识别未达标的产品等。从数据挖掘算法角度看,常见的算法可以被粗略归类为概率与极值分析(假设数据分布并找到超过中心特定范围的数据),线性模型(如 PCA 计算重构误差或者分析协方差矩阵的),有相似度模型(如ABOD,LOF、LOCI、LoOP 和 kNN 等),有决策树集成(Isolation Forest、Feature Bagging),有基于 SVM 的方法如 One-cl[……]
数据科学与大数据分析科研教学实践环境
数据科学与大数据分析科研教学实践环境,是跨象乘云公司专门为高校教师与学生定制化的设计的数据科学与大数据分析项目开发综合环境,可供数据科学与大数据技术(080910T)专业学生或项目开发小组完成数据科学,大数据分析,数据挖掘,机器学习,以及深度学习与新一代人工智能全生命周期的工程实践及实验操作。厂家工程师在工程实践系统环境内部,对应相关课程模块教学与实验需求,预装多个流行的 Python 数据科学组件与套件库,满足相关教学与实验所需的应用场景;支持数据科学工程在各个 Python 版本以及 R 语言数据分析环境间自由切换。通过一键部署与统一管理组件,能实现 1,000 个以上数据科学基因链套件库[……]