博物馆元数据集整理与大数据匹配

博物馆元数据整理

项目案例

博物馆元数据集整理与大数据匹配

大数据技术方向

数据预处理,数据库关联,数据清洗,数据整理,元数据匹配

大数据应用行业

社会科学,资料管理,图书馆信息管理,科研智库,学术论文管理

项目简介

本项目基于澳洲悉尼动力博物馆(Powerhouse Museum)数据集进行数据整理。动力博物馆,是一所应用艺术与科学博物馆(Museum of Applied Arts & Sciences)在悉尼的主要分馆,而另一所分馆是历史性的悉尼天文台。虽然动力博物馆经常被认定为一所科学博物馆,但它却拥有不同种类的收藏,其中包括装饰品、艺术、科学、通讯、运输、服装、家具、媒体、计算机技术、空间技术和蒸汽机等相关领域的展品。动力博物馆至今已经有136年历史,收藏的文物达50万件。动力博物馆众所周知是其中一个受欢迎的悉尼旅游景点。本项目涵盖数据分析前的必修环节:数据预处理与清洗的标准流程和基本工具,并且通过强大的数据整理引擎及其脚本语言,实现高效的数据转换与整理输出功能。对动力博物馆的真实数据库进行整理,将贯穿整个数据整理平台应用教学全程,让学生全面并深入了解对凌乱数据进行数据预处理,数据整理,数据清洗,数据归类透视,数据库关联查询,以及基于Web服务实现数据扩展处理等各项关键技术。

数据来源及规模

本数据来自动力博物馆开放数据门户网站,提供动力博物馆从1880年至今的75,814行展品的搜索摘要记录数据,从蒸汽发动机到精细玻璃器皿,从邮票到机器人。除了必要的:记录ID,描述,出土信息,类别,注册信息等数据字段以外,这个交互式数据库,包含数千张可缩放的图像和研究博物馆的收藏链接,其中大部分是首次公开。本数据为澳大利亚“博物馆元数据交换项目”其中一部分,同时提供API可编程接口访问。尽管该数据集,已被认为是高质量的博物馆收藏品资料数据集,然而,数据源依然包含了:空行,人工输入误差,异常数据值,分类过多,重复值……等造成数据凌乱的因素,需要进一步进行数据整理,并且通过Web服务实现与外部巨型数据库(如:维基百科数据Wiki-Data)的关联与查询,构成大数据联查网络,从数据中掘取更高的价值。

主要技术及参数

  1. 了解数据整理平台的各项基本操作;
  2. 了解如何继承并导入多种数据格式及数据源;
  3. 了解标准数据预处理及数据整理流程;
  4. 应用归类与过滤特性,实现数据透视与探索;
  5. 应用点击变换和模糊匹配,实现强大的数据清洗与整理;
  6. 应用表达式以及脚本语言实现复杂的转换;
  7. 应用外部Web服务API,实现强大的数据处理扩展;
  8. 应用元数据轮询匹配,借助大数据集深入挖掘学术信息;

项目案例基于本地安装的服务器端平台实现数据整理,通过浏览器实现数据预处理及数据清洗,数据转换,外部数据库关联及查询,以及外部Web服务调用等操作。平台界面直观、所见即所得、提供中英文界面、兼容中英文本数据。平台支持TSV,CSV,*SV,Excel (.XLS and .XLSX),JSON,XML,RDF as XML,以及Google 数据文档……这些数据格式。此外,的其他格式可以通过添加展来支持。数据整理平台允许将整理后的数据项目完整导出到本地电脑上,以便在其他地方继续进行未完成的数据整理工作。同时,可以将完成全部数据整理的数据导出为常用格式,比如CSV,TSV,Excel,Open Document格式,RDF格式,以及HTML表,Triple Loader,MQL-Write。并且支持自定义表格字段导出。数据整理平台支持通过添加扩展插件实现与在线大型数据库之间的关联,如:维基数据库,并提供至少20款扩展插件以备应用。项目案例中所涉及的每一个数据整理技术点,出现在:《数据预处理与数据整理实战》对应章节的技术示例中。提供不少于23个专门针对“动力博物馆案例数据集”的数据预处理与数据整理技术点实验,并对每一个技术点提供理论讲解。同时,提供项目工程文件,测试用数据,以及分解实验指导,并提供包括:图书馆,手稿文件,博物馆,现代艺术等样本数据集用扩展练习。