人工智能专业(080717T)学习路径及人才培养模型

作为首个直接以『人工智能』命名的专业,080717T 的专业目标,是培养适应国民经济与科技发展的需求,具备较好的科学素养、扎实的人工智能基本理论和专业知识、较强的工程实践能力,掌握智能信息化技术基础知识与方法,能够在人工智能及其相关应用领域从事新技术和新产品研发、系统设计、管理,以及解决复杂工程问题的高级工程技术人才。

人工智能专业(080717T)学习路径及人才培养模型
人工智能专业(080717T)学习路径及人才培养模型

人工智能专注于理解视觉,语音,语言,决策等复杂任务的核心能力,并设计机器和软件来模拟这些过程。人工智能具有悠久而丰富的历史,尽管许多工具和技术已经存在数十年(即多层感知器,卷积神经网络,强化学习),然而,高性能计算的最新进展,分布式方法的发展以及大数据产业的发展,加速了其在工业中的采用。由于这种增长和成功的加速,各行各业对人工智能从业者的需求前所未有。

新一代人工智能,具有更为广泛的领域应用覆盖面,人工智能工程师角色的类型也因公司和行业而异。虽然人工智能专业人员拥有很多头衔(例如:深度学习工程师,计算机视觉研究人员,机器学习工程师和 NLP 科学家,移动智能 App 开发),但他们都有相同的重点:构建复杂的,最先进的模型来解决特定的问题。构建这些系统需要对工程学和机器学习原理有深入的了解,并且根据团队或产品的不同,某些角色可能会在特定技能上更加沉重。例如,一些人工智能角色更关注于研究,专注于找到正确的模型来完成特定任务,而另外一些更关注于人工智能系统在生产中的训练,监控和部署。虽然有一系列以人工智能为重点的工作,但几乎所有从业人员都定期建立新的人工智能系统架构,包括构建端到端的管道。这意味着他们需要保持人工智能的最新的学术上的进步。他们积极监督系统的性能和培训,帮助扩大生产规模,并在数据和/或者模型性能发生变化的情况下迭代系统。人工智能工程师应该对 Python 数据科学库(如:Scikit-learn;Numpy;Matplotlib;Scipy;NLTK;Gensim;hmmlearn;python_speech_f;eatures;Pandas;Pystruct;OpenCV;NeuroLab 等),具有专业理解与应用;使用一个或多个深度学习框架(如:TensorFlow;Caffe2;Torch;Deeplearning4j … 等等),有时还会利用分布式数据工具(如:Hadoop;Spark;Flink 等)。

正因如此,跨象乘云™ 设计了面向多个新一代人工智能专业方向的课程体系与人才培养魔方模型,覆盖了新一代人工智能的四大核心方向,包括:算法模型、开发工程、商业应用、部署架构。通过 30 门以上的人工智能专业课程体系资源库,为高等院校人工智能专业建设,培养新一代人工智能技术人才提供全方位的支撑。

面向多个新一代人工智能专业设置方向的课程体系与人才培养魔方模型
面向多个新一代人工智能专业设置方向的课程体系与人才培养魔方模型

专业课程目录包括 ——

  1. 人工智能导论
  2. 深度学习应用数学基础
  3. 数据预处理与数据标记
  4. 大数据基础与实战
  5. Spark 框架实战
  6. 智能数据挖掘
  7. Python 数据分析
  8. 特征工程
  9. 机器学习
  10. 深度学习
  11. TensorFlow 2.0 框架
  12. 多框架人工智能开发
  13. 大数据深度学习
  14. 计算机视觉与项目实战
  15. 自然语言处理
  16. 边缘计算嵌入式开发(自动驾驶)
  17. 人脸识别
  18. 语音及生物信息识别与处理
  19. 智能化软件工程
  20. 深度学习机器人
  21. 嵌入式人工智能系统
  22. 分布式人工智能
  23. FPGA 人工智能推理
  24. 边缘计算与模型推理
  25. 生成对抗网络
  26. 强化学习
  27. 主动学习
  28. 时间序列分析
  29. 异常检测
  30. 贝叶斯算法模型进阶

《人工智能导论》课程

本课程面向初次接触人工智能的学生,涵盖的主题包括:人工智能的历史,人工智能在企业及各行各业的应用,解释为何数据对训练神经网络至关重要,以及数据科学工作流程的步骤,同时向学生介绍监督学习和深度学习,并介绍当前的硬件和软件选型。同时,神经网络原理可视化解析器,是一个面向深度学习与新一代人工智能,以图形化界面用于教学目的的简单神经网络交互式演示项目,它非常强大地可视化了神经网络的训练过程。通过直观的交互式演示与实验,让教研人员与学习者高效的掌握神经网络背后的核心思想,并在短时间内对神经网络工作原理以及核心概念具备深刻的认知。通过神经网络可视化解析器,来了解神经网络的原理,通过对源数据,进行训练以达到对数据进行分类的目的(分为正、 负两类)。让学生深刻了解到:什么是神经网络、数据选取、特征选取、隐藏层可视化、输出结果、参数调整、 激活函数等全方面来展示进行网络神经需要哪些操作。

神经网络原理可视化解析器 -《人工智能导论》课程教学演示平台
神经网络原理可视化解析器 -《人工智能导论》课程教学演示平台

《数据预处理与数据标记》课程

机器学习和深度学习项目在大多数企业中变得越来越重要。同时,一个完整的项目流程包括数据整理(Data Preparation)、构建分析模型以及部署至生产环境。该流程是一个:洞察与行动的循环,此循环能不断地改进分析模型。当你打算使用机器学习或深度学习技术来构建分析模型时,一个重要的任务是集成并通过各种数据源来准备数据集,这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的 80%。显然,数据整理是数据科学的核心。它包括数据清洗和特征工程。另外领域知识(Domain Knowledge)也非常重要,它有助于获得好的结果。数据整理不能完全自动化,至少在初始阶段不能。通常,数据整理会占去整个分析管道(流程)的 60% 到 80%。但是,为了使机器学习算法在数据集上获得最优的精确性,数据整理必不可少。《纽约时报》指出,数据清洗与数据整理等预设工作,是大数据科学家获得科研及业务成果的关键。本课程重点让学生掌握强大的数据预处理和数据整理工具,而且不局限与计算机专业学生使用,实现对大数据预处理与数据整理标准化流程的认知,掌握,以及扩展。让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于 Web 服务实现数据扩展处理等各项关键技术。

另一方面,训练深度神经网络需要数据。很多数据。并且根据手头的 AI 架构,如果没有标记,那么这些数据就没有多大用处,这需要时间 – 特别是当你正在处理包含数十万个对象的语料库时。为了减轻数据注释和数据科学家的负担,人工智能行业提供了多种计算机视觉注释工具,旨在加快用于训练计算机视觉算法的视频和图像样本的注释。本课程借助当前流行的深度学习数据标记工具,通过大量的可视化实践训练,使学生掌握与对象检测、图像分类和图像分割相关的监督机器学习任务,以及四种类型的数据注释技巧:框、多边形、折线和点等,获取高效的数据标记能力。

数据预处理与清洗平台 -《数据预处理与数据标记》课程支撑平台
数据预处理与清洗平台 -《数据预处理与数据标记》课程支撑平台

《深度学习应用数学基础》课程

机器学习方法,是计算机及其应用领域的一门重要学科。本课程基于各种机器学习主流算法实现代码,使学生更好的将算法逻辑应用至工程实践当中。课程分为监督学习和无监督学习两篇,全面系统地介绍了机器学习的主要方法。包括感知机、K 近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与大熵模型、支持向量机、提升方法、EM 算法、隐马尔可夫模型和条件随机场,以及聚类方法、奇异值分解、主成分分析、潜在语义分析、概率潜在语义分析、马尔可夫链蒙特卡罗法、潜在狄利克雷分配和 PageRank 算法等。

《大数据基础与实战》课程

无论是人工智能,机器学习还是深度学习,其发展与壮大均得益于大数据产业的不断成熟。只有在海量数据,多来源数据,多格式数据分析框架的支撑下,机器学习与深度学习的各种算法模型,才能经过不断的训练,重复验证循环,最终得到理想的结果,而形成机器智能认知。大数据已成为人工智能的基础设施,如何实现大数据与人工智能的有机结合,已成为现今高科技互联网企业的重点探索方向。

2018 年,跨象乘云™ 与华中科技大学软件学院合作,面向数据科学与大数据技术专业,编写《数据科学与大数据技术专业系列规划教材》,经专家评审,确定列入人民邮电出版社教育出版的重点规划。同时,跨象乘云™ 配套企业级仿真工程实践系统环境,专业教育资源,贯穿教学综合案例,科研与教学数据集。为高等院校开设数据科学与大数据技术专业,大数据技术与应用专业,深度学习与新一代人工智能科研及相关学科建设,部署校内新一代人工智能开放创新平台提供强有力的支撑。

跨象乘云大数据工程系统实践环境架构
跨象乘云大数据工程系统实践环境架构

《大数据基础与实战》课程,基于合作教材开发,是真正面向企业大数据业务的实践性课程,旨在帮助学生了解:各种大数据技术如何运作,这些技术应何时用于较大规模的大数据项目中,它们如何同时发挥作用,为企业提供最高的投资回报率。该课程旨在阐述大数据项目的五个阶段战略,使客户如何使用并充分利用大数据。这五个阶段包括:

  • 数据处理底层架构(阶段 1)
  • 数据采集和存储(阶段 2)
  • 数据访问和处理(阶段 3)
  • 数据统一和分析(阶段 4)
  • 数据安全/可视化/性能优化(阶段 5)

每个阶段均包括 Hadoop 核心组件和生态系统技术以及大数据技术或产品。学生将学习信息管理系统如何采用一种全面的方法将大数据(非结构化和半结构化)与关系数据(结构化)进行整合,从而发现更多嵌入大数据池中的价值。同时,通过:电子商务金融健康医疗等真实的商业级项目实训案例,完整的『端到端』业务流程演示与上机操作训练,让学生真正了解大数据行业背景以及企业实施技术需求,通过直观而具备针对性的训练使学生在最短时间内得到应用技术技能的提升,更进一步满足职业岗位对工作技能的需求。从而使学生能够学习到:

  • 大数据整体业务流程及系统组件部署模式;
  • 数据源捕获与多格式数据集成,实现『全』数据分析与挖掘;
  • 应用多种分析算法获得最佳预测计算模型;
  • 利用数据可视化分析系统展现最佳商业智能视图;
  • 通过参与商业项目研发流程,有效掌握岗位所需技能,实现精确匹配;
工程项目案例:构建用户行为分析推荐系统架构
工程项目案例:构建用户行为分析推荐系统架构

《Spark 框架实战》课程

Spark 是当前大数据行业内的事实标准,是由 UC Berkeley AMP lab (加州大学伯克利的 AMP 实验室)开源的类 Hadoop MapReduce 的通用并行框架,Spark 拥有 Hadoop MapReduce 所具有的优点,但不同于 MapReduce 的是 Job 中间结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 算法。Spark  是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 主要有三个特点:首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。其次,Spark 很快,支持交互式计算和复杂算法。最后,Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。

《智能数据挖掘》课程

在数据科学技术迅猛发展的今天,各行业都意识到大数据人才,算法工程师的重要性。同时,许多目前大部分机器学习,人工智能平台均需要一定的编程基础。造成许多非计算机专业的经管类,统计及数理类学生,无法施展其在算法上的竞争力,书本上学到的数据科学知识也无法在实验环境中验证。本课程配套可视编程机器学习平台,通过直观的交互式可视化编程界面,让没有编程能力的学生,同样能完成非结构化数据处理,数据挖掘,机器学习,模型分析,算法优化等操作。同时为高等院校深化数据科学与大数据技术理论教学,并培养实际动手能力的应用型人才,提供强力的支撑。

课程概要:了解并强化数据挖掘的基本概念,学习如何使用数据进行分析,实现预测分析功能。数据挖掘是图形化扩展工具,用于直接对数据进行业务分析。建立多种数据挖掘模型,通过将成熟的模型应用到新数据中,实现业务预测与分析洞察。课程通过描述基本的数据挖掘概念,使学生能准确描述预测分析的优势。理解数据挖掘的主要任务,描述数据挖掘业务流内的关键步骤。使用数据挖掘建立,改进,应用多种数据模型。通过项目实际训练,实现对各种业务需求类型的分析与洞察,包括:预测个体行为,价值预测,关联时间搜索。

可视编程机器学习平台 -《智能数据挖掘》课程支撑平台
可视编程机器学习平台 -《智能数据挖掘》课程支撑平台

《Python 数据分析》课程

Python是一种面向对象、直译式计算机程序设计语言,由 Guido van Rossum 于 1989 年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python 又被称之为胶水语言,是目前『云计算』 Openstack 的标准开发语言。同时,Python 拥有非常丰富的库,使其在数据分析领域也有广泛的应用。本课程涵括 Python 在大数据分析领域中的五大核心应用:

  1. 数据统计;(NumPy/Pandas 库)
  2. 数据采集;(Scrapy Web 爬虫采集)
  3. 数据处理;(清理、转换、合并、重塑)
  4. 数据分析;(数据聚合与时间序列)
  5. 数据可视化;(Matplotlib 库)

同时,配套数据科学与大数据分析科研教学实践环境,为高等院校数据科学与大数据技术专业、大数据技术应用专业学生提供完整的数据科学与大数据分析生态环境。为高等院校数据科学与大数据技术方向科研实验室建设提供完善的支撑。

《特征工程》课程

特征工程也被称为特征构造,是从现有数据中构造新的特征从而训练机器学习模型的过程,同时也是传统模式识别技术的升级。机器学习算法只能从我们给定的数据中学习,所以构造一个和任务相关的特征是至关重要的。通常,特征工程是一个冗长的人工过程,依赖于领域知识、直觉和数据操作。这个过程可能是极其枯燥的,同时最终得到的特征将会受到人的主观性和时间的限制。特征工程自动化旨在通过从数据集中自动构造候选特征,并从中选择最优特征用于训练来帮助数据科学家。

人工智能特征分析工程平台,旨在通过从数据集中自动构造候选特征,并从中选择最优特征用于训练来帮助数据科学家与人工智能工程人员,自动从现有数据中构造新的特征从而训练机器学习与深度学习模型。取代传统依赖于领域知识、直觉和数据操作进行构造特征这种低效、繁复、容易出错的工作流程。

本课程配套 10 个覆盖多行业应用的特征工程案例,使学生更为深刻的理解特征工程在新一代人工智能行业中的定位及核心技术应用场景:

《特征工程》课程
《特征工程》课程

《机器学习》课程

在如今这个处处以数据驱动的世界中,机器学习,深度学习,人工智能正变得越来越大众化。在大数据的爆发性增长背景下,当今的机器学习技术已经被广泛地应用于不同领域,如搜索引擎、机器人、无人驾驶汽车等。机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。

《机器学习》课程 - 为学生高效构建机器学习算法模型思维地图。贯穿算法原理、代码实现、行业应用工程闭环。
《机器学习》课程 – 为学生高效构建机器学习算法模型思维地图。贯穿算法原理、代码实现、行业应用工程闭环。

本课程,覆盖机器学习核心算法模型,为学生打下坚实的机器学习算法模型基础,通过超过 20 个实战项目,使学生从技术原理,到算法模型,到行业应用贯穿始终。不但了解机器学习本身在分类,回归预测等方面的部署,更能充分了解每种算法的应用场景。同时,课程还将介绍与深度学习密切相关的关键概念,如:拟合不足和拟合过度、正则化及交叉验证,如何辨别要解决的问题的类型,选择正确的算法,调优参数以及模型验证等主题。基于极易上手入门的流行编程语言 Python,首先通过实用的案例介绍机器学习的基础知识,然后介绍一些稍微复杂的机器学习算法,例如:支持向量机、极端随机森林、隐马尔可夫模型、条件随机场、深度神经网络 …… 等。通过大量的实战案例,了解如何使用当前最火的 Python 编程语言,结合机器学习算法解决各类实际的业务问题。譬如:使用探索分类分析算法实现收入等级评估;使用无监督学习实现市场细分;使用隐马尔科夫模型实现语音识别 …… 等,并深刻掌握以下机器学习核心库的原理与应用: