270 GB 阿里巴巴数据中心数据开放下载

  • 数据中心每个机器的运行情况如何?
  • 这些机器上运行着什么样的应用?
  • 这些应用有什么特点?

对于这些问题,除了少数资深从业者之外,普通学生和企业的研究者很难了解其中细节。

为了让有兴趣的学生以及相关研究人员,可以从数据上更加深入地理解大规模数据中心,我们特别发布了这份数据集(Alibaba Cluster Data V2018)。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中,你可以详细了解到我们是如何通过混部把资源利用率提高到 45%;我们每天到底运行了多少任务;以及业务的资源需求有什么特点。如何使用这份数据集,完全取决于你的需要。

GitHub地址项目 GitHub 地址