Docker如何提升数据科学与深度学习科研效率?

跨象乘云™融能平台,是基于容器架构的深度学习与新一代人工智能科研教学一体化实验平台,满足多个科研项目、云服务层、系统框架、以及科研与教学环境之间所需要的集群管理,调度与隔离需求。通过统一的可视化基础架构管理界面,提升数据科学与深度学习科研工作效率。

今天,以 Docker 为代表的容器技术逐步取代虚拟主机,成为云计算架构下的基本业务单位。几乎所有软件工程师都在使用容器来开发,测试,部署新的应用程序 —— 不单是因为容器具有更全面的开源生态系统;同时,卸载掉底层操作系统,大幅度降低容器镜像的体积,相对于虚拟主机而言,容器变得更适合在互联网实现发布。如 Docker Hub 等公共容器云服务,让科研机构与企业在更短的时间按内实现微服务部署。因此,各大软件厂家,也纷纷开始拥抱容器技术,以迎接新一轮的云计算技术变革。而跨象乘云也理所当然的选择采用容器作为深度学习与新一代人工智能科研教学一体化实验平台的基础架构。

对于数据科学与深度学习科研人员而言,容器所带来的科研效率提升来源于:

1.有效重现数据结果及运算模型

作为数据科学科研人员,让数据结果,运算模型能够重现是验证科研成果的重要标准之一,不但有助于同业评审,而且可以确保你创建的模型、应用或分析结果可以无障碍地运行。过去,结果重现却因为模型所依赖的操作系统、编译器、驱动程序、配置文件以及代码成功运行所需数据源等诸多条件,变得几乎无法在别的设备上重现。现在,使用 Docker 将数据结果,运算模型及依赖条件封装在容器中,便能让科研成果通过互联网发布到全球各地。在全球任意一台设备上实现数据结果及运算模型的重现。

2.有助于科研环境的迁移与扩展

科研项目是否具备到计算环境的迁移与扩展,极大地影响科研项目本身的生产力。数据科学与深度学习科研的初始化工作常常是:原型设计、探索和算饭研究,这些工作并非立即就需要特定的计算资源,往往在笔记本电脑或个人计算机上即可完成。之后,则需要不同的计算资源来显著加速你的工作进度 —— 比如使用更多 CPU 或强大的 GPU 来执行深度学习等任务。Docker 能让科研环境的迁移变得非常简单。

3.强化科研项目落地能力

对于数据科学与深度学习科研人员而言,熟练使用 Docker,将科研项目模型或分析结果,更为高效的部署成应用。譬如:通过融能™的智能输出层,发布用作提供图像识别的 REST API,从而让企业也能更快的使用高等院校的科研成果,或协助你的数学模型验证。另外,Google 数据科学家 Martin Zinkevich,在他写的:

Rules of Machine Learning:
Best Practices for ML Engineering

中特别强调工程模型对于数据科学与深度学习科研工作的重要意义。对于大多数机器学习应用场景来说,我们需要解决的问题大多数都是工程问题,解决这些工程问题需要的并不是复杂的理论,更多是对细节、架构、过程的仔细推敲和精致追求。而这些都是普通的科研人员可以做到的,如果说顶级的科研人员做的是95分以上的系统,那么我们只要对工程架构、过程和细节做好足够的优化,我们也可以做出至少80分的系统。