日前,IBM 发布博文,从数据湖的定义,数据湖的优势,数据湖的演变,数据湖的应用等方面,多角度的阐述了近期日渐火爆的『数据湖』概念。
基本概念
- 数据仓库:数据仓库是一种存储架构,旨在保存从多个数据源提取的数据,这些数据源包括操作数据存储、事务数据存储,以及企业内的部门数据集市。数据仓库将数据组合为一种聚合、摘要形式,适合于进行企业级数据分析以及针对业务需求定制报告。
- 数据湖:数据湖是一种存储库,它以原生格式保存大量原始数据或细化的数据,以供按需访问。这个词有时与 Apache Hadoop 对象存储有关,但数据科学家越来越多地开始使用数据湖这个词来描述任何具有不明确的模式和数[……]