在当今以数据为推动力的经济中,计算机科学和业务课程如果没有数据库和数据管理方面的课程,就不能说是完善的。应了解计算机如何组织、使用和处理数据,这对于了解如何使用我们掌握的数据以及如何寻求创新方式以更好地管理和使用数据都至关重要。数据库出现由来已久,不过总会出现新的内容需要学习。《数据库原理与应用》是第一门入门课程,本课程向学生介绍基本关系数据库概念。本课程向学生教授关系数据库术语以及数据建模概念,构建实体关系图 (ERD) 及映射 ERD 等知识。使用 SQL Developer Data Modeler 构建 ERD,使用结构化查询语言 (SQL) 与关系数据库进行交互并处理数据库中的数据。[……]
标签: 数据库
《MySQL 数据库管理》课程
大数据时代中,实现高效的数据分析除了依赖于分布式架构,并行处理,先进的数据预测算法模型外,数据库以及数据仓库模型本身,同样不可忽略的关键点。数据建模代表了企业业务流程的复杂度,记录了重要的业务规则和概念,并有助于规范企业的关键术语。它清晰地阐述、协助企业揭示商业过程中模糊的想法和歧义。此外,可以使用数据模型与其他利益相关者进行有效沟通。正如要是没有蓝图,不可能建造一个房子或桥梁。本课程为专业基础课程,面向提升学生数据素养与数据思维锻炼,学生将学习分析复杂的业务方案并创建数据模型 - 组织的信息的概念化表示形式。学生 将实施其数据库设计:使用 SQL 创建一个物理数据库。 在此期间会讲解基本的[……]
DeepFashion:服装公开数据集
DeepFashion 是香港中文大学开放的一个 large-scale 数据集。包含 80 万张图片,包含不同角度,不同场景,买家秀,买家秀等图片。
每张图片也有非常丰富的标注信息,包括 50 种类别,1000 种属性,Bbox,特征点。
还有约 30 万的不同姿势/不同场景的图片 pairs。
实际上 DeepFashion 是由4个子集组成的。它们分别是:
1. Category and Attribute Prediction Benchmark
这个子集是用来做分类和属性预测的。共有 50 分类标记,1000 属性标记。包含 289,222 张图像。每张图像都有[……]
Google 机器学习数据库:SageDB
近日,Google 联合 MIT、布朗大学的研究人员共同推出了新型数据库系统 SageDB,并撰写了一篇论文详述 SageDB 的设计原理和性能表现。他们在论文中提出了一个观点:学习模型可以渗透到数据库系统的各个方面 ——
基于机器学习的组件可以完全取代数据库系统的核心组件,例如索引结构、排序算法,甚至是查询执行器。
在 17 年的论文中,谷歌研究团队尝试通过实验论证:与基于缓存优化的 B-tree 结构相比,使用神经网络在速度上可以提高 70%,并且大大节省了内存。“机器学习模型有可能比目前最先进的数据库索引有更显著的好处”。而今天我们要介绍的 SageDB,就是研究团队在该研究基础之上[……]
数据湖概念与应用
日前,IBM 发布博文,从数据湖的定义,数据湖的优势,数据湖的演变,数据湖的应用等方面,多角度的阐述了近期日渐火爆的『数据湖』概念。
基本概念
- 数据仓库:数据仓库是一种存储架构,旨在保存从多个数据源提取的数据,这些数据源包括操作数据存储、事务数据存储,以及企业内的部门数据集市。数据仓库将数据组合为一种聚合、摘要形式,适合于进行企业级数据分析以及针对业务需求定制报告。
- 数据湖:数据湖是一种存储库,它以原生格式保存大量原始数据或细化的数据,以供按需访问。这个词有时与 Apache Hadoop 对象存储有关,但数据科学家越来越多地开始使用数据湖这个词来描述任何具有不明确的模式和数[……]
Apache Kylin 实践:链家数据分析引擎
Apache Kylin™ 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。
其特征包括:
- 可扩展超快 OLAP 引擎:Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计
- Hadoop ANSI SQL 接口:Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能
- 交互式查询能力:通过 Kylin,用户可以与 Hadoop 数据进行亚秒级交互,在同样的[……]
教学工具:迷你电影数据库
通常学习了 Python 入门课程之后,初学者会开始思考如何编写一个很酷的 Python 程序,来演示一些高级的语言能力,比如使用网页抓取或数据库操作。在《手把手搭建迷你 IMDB 数据库》教程(中文翻译)中,Tirthajyoti Sarkar 向我们展示了如何使用简单的 Python 库和其内置功能来获取网上的电影信息,并将它们存储在本地的 SQLite 数据库中,之后还可以查询电影数据并进行数据分析。我们可以将它看作是一个构建自己迷你 IMDB 数据库的项目!
这种类型的数据工程任务 —— 从网上收集数据并建立与数据库的关联;通常是数据分析项目的第一步。在做任何预测建模之前,你都需[……]
Hive+HBase集成模型
伴随着大数据的应用,Google, 亚马逊,国内 BAT 等正在彻底的颠覆我们的生活。作为消费者,我们期望智能的应用程序能预知,建议,预测我们的每一个行为;筛选数百万种可能性后向我们推荐最适合我们的选择;借助智能应用在无尽的可能中挑选出最具个性化的配搭。—— 如此的个性化配搭要求系统存储并在短时间内分析处理海量数据源,这便是 Hadoop 诞生第一天所要完成的使命。
同时,大数据企业正在使用更为广泛的数据处理技术来构建具有深度分析的应用程序,常见的模式包括:
- 使用 HBase 作为在线操作数据存储,以便快速更新热数据,例如当前的小时/分钟等
- 使用 Apache Phoen[……]