深度学习与新一代人工智能科研教学一体化实验平台

融能™ DL-AI 科研平台

跨象乘云™ 深度学习与新一代人工智能科研教学一体化实验平台(简称:融能),是专为高等院校设计的新一代人工智能开放创新平台,具备科研教学一体化,容器化架构,支持广泛深度学习框架,CPU / GPU 异构计算分布式集群,科研数据服务,机器学习智能输出,以及可视化探索平台等特点。

容器级深度学习实验环境

从“云计算”时代开始至今,虚拟化概念已经深刻植入每个架构设计当中,从大数据时代开始就已经鲜有企业将 Hadoop 或者 Spark 直接部署在硬件平台上,企业级业务平台无不广泛采用虚拟化技术对硬件平台实现资源池化,以满足业务需求与硬件资源的充分匹配以及管理调度。

与虚拟化概念刚刚出来的时候虚拟机被广泛作为资源隔离单位部署情况不同,在现今,容器已逐步取代虚拟机作为资源隔离的主流技术。

与虚拟机一样,容器将应用程序封装到隔离的虚拟环境中,以简化数据中心的部署。通过将所有应用程序依赖项(例如二进制文件和库)都包括在内,应用程序容器能在任何数据中心环境中无缝地运行。Docker 是领先的容器平台,它现在可用于容器化 GPU 加速的应用程序。这意味着无需进行任何修改即可轻松容器化和隔离加速的应用程序,并将其部署到任何受支持的、可使用 GPU 的基础架构上。管理和监控加速的数据中心将变得空前容易。构建人工智能应用程序的方法很多,构建时可使用的工具也有很多。跨象乘云公司的深度学习与新一代人工智能科研与教学一体化实验平台,支持各种主要的深度学习框架,可为数据科学家和人工智能开发人员提供最开放且最灵活的环境。我们提供的深度学习容器镜像,以便高校科研人员以任意的规模,创建自动扩展的托管 GPU 群集,进行深度学习训练和模型推理。广泛的深度学习框架包括:

  • TensorFlow
  • Caffe2(和 Caffe)
  • THEANO
  • PyTorch
  • KERAS
  • MXNet

以及所有主要的深度学习工具和驱动程序都预先安装到容器当中。无论是科研人员还是学生,都无需过多的关注如何部署安装。

分布式 GPU 集群调度

深度学习由不同拓扑结构的深度网络组成。神经网络已存在很长一段时间,但多层网络 —— 每个层提供一定的功能,比如特征提取,让它们变得更加实用。增加层数,意味着各层之间,层内,有更多相互联系和加权值。在这里,GPU 可以为深度学习带来增益,使训练和执行这些深度网络成为可能。而原始处理器(CPU)在这方面的效率不够高。GPU 在一些关键方面与传统多核处理器(CPU)不同。首先,一个传统处理器可能包含 4 到 24 个通用 CPU 核心,但一个 GPU 可能包含 1,000 到 4,000 个专用数据处理核心。

与传统 CPU 相比,高密度的核心使得 GPU 变得高度并行化(也就是说,它可以一次执行许多次计算)。这使得 GPU 成为大型神经网络的理想选择,在这些神经网络中,可以一次计算许多个神经元(传统 CPU 可以并行处理的数量要少得多)。GPU 还擅长浮点矢量运算,因为神经元能执行的运算不止是矢量乘法和加法。所有这些特征使得 GPU 上的神经网络达到所谓的高度并行(也就是完美并行,几乎不需要花精力来并行化任务)。

上文介绍过,TensorFlow 作为深度学习领域逐渐成熟的项目,以其支持多种开发语言,支持多种异构平台,提供强大的算法模型,被越来越多的开发者使用。在分布式深度学习中,TensorFlow 集群(Cluster)里包含了多个工作(Job),各工作又可拆分成一或多个任务(Task),简单来说,Cluster 是 Job 的集合,而 Job 是 Task 的集合。

但在使用的过程中,高校科研人员或多或少将面临以下问题:

  • 资源隔离:TensorFlow 中并没有租户概念,如何在集群中建立租户的概念,做到资源的有效隔离成为比较重要的问题;
  • GPU调度:TensorFlow 通过指定 GPU 的编号来实现 GPU 的调度,这样容易造成集群的 GPU 负载不均衡;
  • 进程遗留:TensorFlow 的分布式模式会出现进程遗留问题;

另外,训练数据分发,训练日志以及训练模型保存,都需要人工介入。因此,跨象乘云公司为高等院校提供的深度学习与新一代人工智能科研教学一体化实验平台,具备统一集群调度和管理系统,可以解决 GPU 调度、资源隔离、统一的作业管理和跟踪等问题。同时,具有以下特性:

  • 管理与操作简单,不需要太多复杂组件设定,且支持性能监控;
  • 可管理与编排集群硬件资源;
  • 简单地扩展、迁移与升级组件;
  • 提供负载平衡、容错、命名空间、自动扩展与本地读写等功能;
  • 支持各种云端平台部署与操作系统;
  • 支持异构计算环境,如 CPU 与 GPU 异构混合训练;

实现 TensorFlow 可视化深度学习

使用 TensorFlow 的计算 ,比如训练一个庞大的深层神经网络 ,这可能是复杂和混乱的。为了更容易理解、调试和优化 TensorFlow 程序,我们封装了一套可视化工具,可以可视化实验操作的 TensorFlow 图形,绘制关于图形执行的各项关键量化指标。同时,通过图像的形式,显示其他数据。

另外,TensorFlow 计算图,强大但复杂。图形可视化界面可以帮助科研人员与学生了解和调试各种深度学习运算模型。同时,作为可读性最有用的帮助,可视化使用常量和汇总节点的标准流程图标,为深度学习科研过程中的运算流程,调试排错提供更为高效的协助。

数据服务:新一代人工智能科研数据集

今天,构建人工智能或机器学习系统比以往的时候更加容易 —— 普遍存在的尖端开源工具如 TensorFlow、Caffe2 和 Spark,再加上通过互联网接入高校深度学习与新一代人工智能科研与教学一体化实验平台,意味着任何人使用笔记本电脑,就可以去训练出最前沿的机器学习模型。尽管不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,海量的标注或未标注的数据。研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤。毫不夸张的说,新一代人工智能时代便是数据至上的时代。可惜当前中国的数据开放程度并不理想,建立校内人工智能科研数据仓库,显得越为关键。许多人在构建人工智能系统时常常忘了构建一个新人工智能解决方案或产品最困难的部分不是人工智能本身或算法,通常最困难的地方是数据收集和标注。标准数据集可以作为验证或构建更优良解决办法的良好起点。为了加速高等院校在新一代人工智能科研领域取得突破,跨象乘云公司在深度学习与新一代人工智能科研与教学一体化实验平台内,为院校提供一系列标准,合法,脱敏的标准数据集,作为高校人工智能科研的基础素材。经典数据集种涉及领域包括:

  • 计算机视觉领域(MNIST, Image NET 图片及中文标签);
  • 自然语言领域(维基百科,垃圾邮件);
  • 语音视频领域数据;
  • 推荐和排序系统领域(Movie Lens 电影评分);
  • 网络和图表领域(SNAP,亚马逊商品点评);
  • 地理测绘数据库(Open Street Map)。

智能输出:机器学习最佳算法实践

高等院校部署新一代人工智能开放创新平台,通过 API 等 IT 服务接口实现智能输出,能力共享是平台的其中一项关键指标。作为产学研融合的枢纽点,高校通过学术科研储备,智库,等资源向企业输出智能资产配置解决方案,无疑成为产学研融合的一项有效举措。

香港金融数据技术有限公司(FDT)是国内最早与高等院校(牛津大学等六大高校)合作,通过学术科研储备向金融机构输出智能资产配置解决方案的机构。目前,FDT 已与内地几家顶尖的券商和商业银行合作,为后者输出成熟的智能资产配置方案,帮助金融机构向真正的金融科技公司转型。预计到 2020 年,全球机器人理财(也叫智能理财)的资产管理规模,最保守估计也将达 2,550 亿美元。FDT 将沉淀在该平台近 “30 万” 亿元交易额的投资行为数据,提供给牛津大学 NIE 金融大数据实验室等团队,让他们评估用户交易行为并建立数据模型。这些模型被投入到真实的金融交易场景中,从风险控制能力、盈利能力、稳定性、活跃度,等四大维度去度量用户交易能力和风格,更准确地展示出用户风险承受能力与偏好,并以此帮助金融机构进行合格投资人认定与筛选,侧面加速投资者去“散户”化进程。对于高校来说,缺乏交易场景,就没有办法真正研究金融数据;而对于金融机构来说,把数据开放给其他商业机构是有顾虑的,而通过我们把脱敏数据开放给学校做研究,他们主观上比较有动力。这不仅能够让科研成果走向商用场景,也帮助金融机构提前储备相关人才。这就形成了产学研的良性互动。

面向新一代人工智能的浪潮,金融领域的产学研智能输出仅仅是一个案例,跨象乘云公司认为,高等院校完全可以在部署深度学习与新一代人工智能科研教学一体化实验平台的基础上,设置智能输出接口,为智能资产配置打下坚实基础。通过容器部署发布,将各种机器学习问题的当前最优结果输出作为开放创新平台的 IT 服务接口,正是一个良好的开端。

从监督学习领域,可以提供:语言建模,机器翻译,文本分类,自然语言推理,问答,命名实体识别算法;从无监督学习领域,可以提供:计算机视觉,语音识别算法等智能服务。