新冠肺炎开放知识图谱数据集更新

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 发布了《新型冠状病毒肺炎特征分析数据》。另外,OpenKG 联合国内多家科研机构,发布了《新冠肺炎开放知识图谱数据集》以及《新冠肺炎开放知识图谱数据集 – Ver 1.1。近日,OpenKG 继续更新发布多个新冠知识图谱数据集,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱。

  • 新冠概念图谱(新增)—— 新冠概念图谱从网络文本中采集了与新冠疾病相关的实体和关系(包括疾病、人物、症状等),进一步融合了从百度百科,维基百科等知识库的 infobox 中提取的实体关系。更为特别的是,本概念图谱利用自动挖掘的手段从网络文本中采集了大量细粒度的上位概念词。即此概念图谱的 is-a 层次结构(schema)是自动构建而成的,包含了细粒度的上下位层次结构。该概念图谱目前已应用于深睿医疗开发的新冠肺炎小睿医生助手中用于计算问句之间的相似度以及辅助解答用户提问。借助于细粒度的上位概念层次结构和丰富的实体间关系,本概念图谱能够为针对新冠肺炎的智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。以问句相似度计算问例,本概念图谱可以对问句中的实体利用上位概念词进行扩展,通过丰富额外的特征从而更加准确的衡量问句间相似度而将问题归类。
  • 新冠防控图谱(新增)—— 根据目前互联网公开的针对人员、场所、交通工具防控指南或手册,形成相应的知识图谱,包含防护概念的分类体系、注意事项,相关避免去的场所和不要做的事情。其中物资包含口罩等涉及一些特定商品的图谱并与防控规则关联。潜在应用包括提供基本防控知识问题,集成于流程化信息处理平台,用于各场所检查防控措施是否正确等。
  • 新冠流行病学图谱(更新)—— 删除了原有 JSON-LD 数据中的示例性病例数据共 5 条;添加了深圳市卫健委发布的 316 例新冠肺炎确诊病例的流行病学调查数据。

新冠肺炎开放知识图谱数据集 – Ver 1.1

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 发布了《新型冠状病毒肺炎特征分析数据》。另外,OpenKG 联合国内多家科研机构,发布了新冠肺炎开放知识图谱数据集。今天,该数据集进行了 V1.1 版本的更新 ——

  • 新冠百科图谱(更新)——  相较于第一版,第二版修改了数据爬取范围,通过重新抓取百科数据,提升了整个图谱数据规模。实体数扩展至 54,318,三元组数扩展至 270,807,关系数和属性数分别扩展至 22 和 50 个。对百科实体进行了类别推断,根据不同类别的实体特点,拓展了 schema 的属性部分。通过三元组和文本分析挖掘和构建了新的实体关系网络。
  • 新冠科研图谱(更新)—— 科研图谱新增病毒药物、病毒亲缘关系、新冠病毒基础信息三个数据库和数据集,并更新病毒分类图谱。
  • 新冠健康图谱(新增)—— 新冠健康图谱由清华大学和北京妙医佳健康科技联合构建,包含跟新冠肺炎相关的各类疾病、药物、症状、检查、全国各地接收新冠肺炎定点医院等信息。
  • 新冠物资图谱(新增)—— 新冠物资图谱包含防控新型冠状病毒所需要的各类物资,主要包括医用防护装备、日常防护用品、医用诊疗设备以及治疗用药。其中,医用防护装备包含了医用手套、口罩、隔离服等;日常防护用品包含洗手液、消毒用品等;医用诊疗设备包含常规检查设备和氧疗设备;治疗用药包含了《新型冠状病毒感染的肺炎诊疗方案》多个版本中的中、西药品。
  • 新冠流行病学图谱(新增)——  新冠肺炎流行病学知识图谱包含了流行病学知识图谱 Schema 和基于此 Schema 定义的新冠肺炎资源实例(待更新)。其中流行病学知识图谱 Schema 重点刻画流行病学的基本概念、流行病学调查等内容,未包含『流行病学研究方法』、『预防与控制策略』、『临床治疗与预后』等内容,需要在后续版本中与其他新冠肺炎知识图谱集成或连接。新冠肺炎资源实例包含了发生在 2019 年 ~ 2020 年 2 月期间,COVID-19 疫情中确诊患者的流行病学调查数据,这些数据来自中各省市卫健委公布的个案流调信息。新冠流行病学图谱可以助力对流行病调查、溯源、密切接触者追踪,为医护人员和疾病防控人员提供技术支持,加速流行病调查研究。
  • 新冠热点事件图谱(更新)—— 加入新的 150 份政府各部委的政策通告文件的事件抽取结果。添加 schema 中的政策事件的相关概念和属性。加入初期的事件类型标签。后期会进一步完善事件关键词抽取的结果。
  • 新冠临床图谱(更新)—— 根据最新的新冠肺炎诊疗方案第六版文件进行图谱模式更新及数据补充
    完善 schema中药及药品部分的属性和关系,中药新增属性药理作用、性味、性状、中药基原、适用症,药品新增子概念化学药、中成药,新增属性禁忌、适用症。
  • 新冠英雄图谱(更新)—— 构建新的实体关系网络,如人物间的队友、同事关系等。根据目前的疫情发展情况实时更新热点人物,拓展图谱规模。

新冠肺炎开放知识图谱数据集

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

近日,OpenKG 联合国内多家科研机构,发布了新冠肺炎开放知识图谱数据集,包括 ——

  • 新冠百科图谱 —— 包括病毒、细菌、流行病、传染病等相关实体。图谱以病毒、细菌为主体,扩展了治疗,疾病等相关内容,通过了这些概念的百科知识,形成了新冠百科图谱。可应用于面向新冠相关术语的语义检索、智能问答,并可用于新冠相关文档的智能搜索和推荐。
  • 新冠科研图谱 ——  VirusNetwork 图谱搜集、整理、关联与新冠病毒相关的科研基础数据和科研文献,为后续进一步研究提供数据支撑。数据集来源于 NCBI(美国国家生物技术信息中心网站)中的 Taxonomy 板块,从其中 Viruses 『超界』开始,逐层爬取构建数据集。涉及的概念主要是病毒的家族层级,比如病毒的属、种、目等,即从顶层到分支、枝叶,构建出一颗病毒的家族树。
  • 新冠临床图谱 —— 从目前已有的规范文件入手,基于诊疗规范(流行病学 + 症状 + 实验室指标 + 治疗)、研究进展(测序、药物开发、疫苗)、发病统计(丁香园), 将研究进展与科研相关联。图谱以新冠肺炎为核心延展至病毒、治疗方案、症状、方剂等各类概念,形成新冠临床知识图谱,可基于该图谱进行知识问答。
  • 新冠英雄图谱 —— 包括了医疗专家组、因公殉职英雄、武汉当地和全国各地的意见领袖等,涉及生平事迹和基本属性,并与新冠百科、新冠科研、新冠临床等图谱中的一些概念或实体关联。图谱以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念,形成新冠英雄知识图谱,可基于图谱进行英雄人物动态展示。
  • 新冠热点事件图谱 —— 包含了疫情发生以来一系列的重大事件的知识,事件之间遵循顺承关系,从发生时间,信息来源,标题,事件内容简介等各个维度来揭示疫情。和上面的新冠百科、新冠科研、新冠临床、新冠防控、新冠英雄等图谱均能建立关联,后续版本还会对事件简介中的非结构化内容进行语义标注和实体链接。支持对新型冠状病毒的事件在时间上的正向和反向索引。并提供系列事件发展脉络的枚举。支持热点事件的查证溯源。和区块链技术结合可具备对事件的存真鉴伪的功能。

知识图谱教程:从海量文本中挖掘和构建异构信息网络

第 25 届 ACM SIGKDD 知识发现与数据挖掘大会于  2019 年 8 月 4 日- 8 日在美国阿拉斯加州安克雷奇市举行。一年一度的 KDD 大会是最重要的跨学科会议,汇聚了数据科学、数据挖掘、知识发现、大规模数据分析和大数据等领域的研究人员和实践者。

今天整理了关于数据挖掘方面的内容:从文本中构建和挖掘异构信息网络,本文提供了一个全面的综述,总结了在这个方向最近的研究和发展。

第 25 届 ACM SIGKDD

摘要:

现实世界中的数据主要以非结构化文本的形式存在。数据挖掘研究的一个重大挑战是开发有效的、可伸缩的方法,将非结构化文本转换为结构化知识。基于我们的愿景,将这些文本转换为结构化的异构信息网络是非常有益的,可以根据用户的需求生成可操作的知识。

在本教程中,我们将全面概述这方面的最新研究和发展。首先,我们介绍了一系列从大规模、领域特定的文本语料库构建异构信息网络的有效方法。然后,我们讨论了基于用户需求挖掘这种文本丰富网络的方法。具体来说,我们关注的是可伸缩的、有效的、弱监督的、与语言无关的方法,这些方法可以处理各种文本。我们还将在实际数据集(包括新闻文章、科学出版物和产品评论)上进一步演示如何构建信息网络,以及如何帮助进一步的探索性分析。大纲:

一 .介绍

1. 动机:为什么要从大量文本中构建和挖掘异构信息网络?
2. 大量文本网络构建的综述
3. 关于构建网络应用探索的综述

二. 短语挖掘

1. 为什么短语挖掘以及如何定义高质量的短语?
2. 监督方法
2.1. 名词短语分块方法
2.2. 基于解析的方法
2.3. 如何在语料库级别对实体进行排序?

3. 无监督方法
3.1. 基于原始频率的方法
3.2. 基于协调的方法
3.3. 基于主题模型的方法
3.4. 对比方法

4. 弱/远程监督方法
4.1. 短语分词及其变体
4.2. 如何利用远程监督?

5. 系统演示和软件介绍
5.1. 一种多语言短语挖掘系统,它将 AutoPhrase,SegPhrase 和 TopMine 集成在一起,支持多种语言的短语挖掘(例如,英语,西班牙语,中文,阿拉伯语和日语)。

三. 信息抽取:实体,属性和关系

1. 什么是命名实体识别(NER)?

2. 传统的监督方法
2.1. CorNLL03 共享任务
2.2. 序列标注框架
2.3. 条件随机场
2.4 手工制作的特征

3. 现代端到端神经模型
3.1. 双向 LSTM 模型
3.2. 语言模型和语境化表示
3.3. Raw-to-end 模型

4. 远程监督的模型
4.1. 实体输入的数据编程
4.2. 学习特定领域的词典

5. 基于元模式的信息提取
5.1. 元模式挖掘
5.2. 元模式增强的 NER

6. 系统演示和软件
6.1 命名实体识别推理 Python 包:LightNER 。该模块可帮助用户以高效便捷的方式轻松地将预训练的NER 模型应用于他们自己的语料库。

四. 分类构建

1. 分类学基础
1.1. 分类法定义
1.2. 分类应用
1.3. 分类构建方法

2. 基于实例的分类构建
2.1. 使用的方法综述
2.2. 基于模式的方法
2.3. 监督方法
2.4. 弱监督方法

3. 基于聚类的分类构建
3.1. 分层主题建模
3.2. 一般图模型方法
3.3. 分层聚类

五. 挖掘异构信息网络(结构化分析)

1. 基本分析系统演示
1.1.  AutoNet 系统:它从 PubMed 论文(标题和摘要)构建了一个巨大的结构化网络,并支持在线构建(新文档)和智能探索(搜索)。

2. 概要
2.1. 基于图的总结
2.2. 聚类和排序的总结

3. 元路径引导探索
3.1. 基于元路径的相似性
3.2. 元路径引导节点嵌入

4. 链接预测
4.1. 任务引导节点嵌入
4.2. 构建网络中的链接增强

六. 总结和未来的方向

1. 摘要
1.1. 原理与技术
1.2. 优势和局限

2. 挑战和未来的研究方向

3. 与观众的互动
3.1 如何根据您的文本数据和应用需求构建和挖掘异构信息网络?

原文链接:https://shangjingbo1226.github.io/2019-04-22-kdd-tutorial/

下一代 AI 系统基石:知识图谱将何去何从?

AI 前线导读:2012 年,Google 提出知识图谱的概念并将其用于搜索引擎中, 伴随 AI 技术的快速发展,智能服务的出现让知识图谱显得尤为重要,那么,作为知识工程的重要分支,它会给智能服务带来哪些影响?知识图谱真正要做到成熟可用,还将面临哪些挑战?

5 月 30 日,北京智源人工智能研究院在清华大学开展了以「知识与认知图谱」为主题的讲座,本次讲座上,来自清华大学计算机系的四位学者分别从知识工程、深度学习、自然语言处理和异质资源搜索与推荐四个角度,介绍清华大学近些年相关领域的研究成果。

本文将会以李涓子教授和刘知远副教授两位讲师的内容出发,重点介绍知识图谱的发展现状以及它在应用中存在的问题和解决方案。

处于技术启动期的知识图谱

大数据时代,通过对数据进行语义层面的解释可以挖掘到许多隐藏的知识,它们被用于机器智能,这是从数据到智能的转化过程。

数据到智能的转化过程
数据到智能的转化过程

专家系统的出现让知识显得尤为重要,它是人工智能对客观世界认知的渠道。不同于富含语义的人类交流,大数据的机器学习仍集中于低维特征空间。由于两者之间互不相通,因此作为桥梁的知识图谱起到了重要作用,同时,它也是整合客观事件与实体的关键。

作为新一代人工智能系统的基础,知识图谱的重要性不言而喻,根据 2018 年下半年发布的 Gartner 曲线可以得知,知识图谱的发展至少还需要 5 – 10 年时间才能到达一个相对成熟的阶段,而通用人工智能的实现则更是需要至少 10 年。

Gartner 曲线
Gartner 曲线

综上所述,知识图谱的发展必定要解决这两个问题:

  • 加强高质量知识图谱的自动标注,减少人为干涉。
  • 整体形态不再局限于三元组,更丰富的信息形态可以带来更好的表现。

知识图谱存在的问题与解决方案

知识图谱在发展过程中仍存在许多技术难题,目前主要有以下几点:

  • 机器学习中实现可解释智能的方法;
  • 大数据环境下实现基于知识和数据驱动的方法;
  • 知识不确定和不完整的情况下完成知识推理;
  • 对高质量、大规模知识的研究获取算法。

知识图谱不仅仅是知识库,它在物联网时代会发挥更大的作用,以 IBM 的 IoT 项目为例,物联网设备在知识图谱上存在相互联系的关系,假设传感器是一个节点,那么通过解析传感器之间传输的数据便可以为用户提供服务。

除了表示学习,实体和词向量的表示学习同样存在许多挑战,这其中包括词的歧义和词与实体联合表示两部分。

词的歧义是指一词多意的问题,这在词向量表示中问题较为明显,由于同一实体可能对应不同客观事物的问题,因此词向量表示的同时也需要对相关词的词义做对应的表示。
以乔丹这个词为例,假设迈克尔·乔丹对应两个实体,那么在做实体表示的同时就需要使用不同的向量表示,如果篮球乔丹是实体,那么其应该与篮球相关的词在向量上更为接近,而教授乔丹则与机器学习相关的词更为接近。

两种解决方案
两种解决方案

这个问题目前有两种解决方案,即词义表示与基于词义的词和实体联合表示。
其中,联合表示学习主要是通过将词和实体映射到统一低维向量空间,让具有相似语义或知识结构的词和实体具有相近的向量表示,以实现跨语言、文本和知识库的联合推演。相较于词义表示,联合表示学习具有以下几点优势:

  • 支持联合计算,促进词和实体语义互操作和语义融合;
  • 提升表示精度,解决文本中词和实体的潜在歧义问题;
  • 缩小语言鸿沟,支持跨语言自燃语言理解等相关任务。

此外,词和实体的联合表示学习又被分为基于词义的词和实体联合表示学习,及远程监督的跨语言词和实体的联合表示学习。在这两项技术的基础之上,利用神经网络将跨语言协同实体连接,这样可以解决跨语言的词和实体表示问题。

利用神经网络将跨语言协同实体连接
利用神经网络将跨语言协同实体连接

词义的词和实体联合表示学习分为实体表示学习、对齐模型、词和实体提及表示学习三个部分,其中实体关系图被用于实体表示学习,带有锚文本的文档在提取义项映射词后分别被用于对齐模型和表示学习两个部分。

表示学习三个部分
表示学习三个部分

其中,跨语言联合表示学习利用实体关系图打破语言界限,结合跨语言相似句对以及图神经网络,让实体与实体之间通过映射对应语义的上下文,结合联合表示学习最终得到跨语言的语义向量空间。

跨语言的语义向量空间
跨语言的语义向量空间

在跨语言的词和实体表述基础上,词和实体的表示就可以实现对任意文本的实体链接,再通过映射对应语义的上下文以实现大规模实体训练。
目前,这项技术已经被用于构建专家知识库的「学者画像」,这其中最简单的应用就是分类体系的概念,其中兴趣标签可以看作是知识图谱里面的知识标签,利用知识标签和上下文关系的解析,可以得到更为详细的信息。

「学者画像」
「学者画像」

通过「学者画像」,学术界可以得到关于他更多的信息描述,其中包括研究兴趣的变化、学术活跃度、研究多样性等方面,这些均通过分析论文以及合作者关系得出。此外,这项技术还可以被用于会议的搜索和挖掘,例如会议上发表论文最多的学者以及引用最多的作者以及论文内容。

「学者画像」2
「学者画像」2

除此之外,利用「学者画像」得到的一些数据还可以被用于制作技术发展报告,以便于实现对某领域技术发展趋势的预测。

知识图谱对自然语言模型的影响

自然语言处理技术中,复杂的知识库可以提升深度学习的理解能力,经过统一语义表示空间处理后文字、句子、短语甚至文章等语言单元可被用于复杂的自然语言处理任务,其中不乏包括语义分析、句法分析和词法分析等。

自然语言文本中蕴含丰富的语言知识和世界知识,知识图谱和深度学习的双向驱动可以有效提升自然语言处理的效率,此外,机器翻译的神经网络模型则有以下两个特点:

  • 将所有的语义表示为低维向量空间;
  • 语言之间的翻译实际上是低维网络空间里面的多层跳转。

另外,它还包含非常多的语言单元,主要分为字、词、短语、句子和文档五个部分,翻译可以看做是不同语言之间的语句联系,以问答系统和信息检索为例,自然语言处理主要是被用于解决语言单元之间语义联系。

数据驱动+知识指导
数据驱动+知识指导

目前,自然语言处理技术尚无法实现数据层次到更深层次的理解,因此知识提取十分重要,深度学习在理解海量数据之后可以获得大量知识,并以此构建对应的知识图谱。同时,经过表示学习获取的知识也可以被用于深度学习的知识指导。

人类知识以离散符号的形式表示
人类知识以离散符号的形式表示

人类知识以离散符号的形式表示,但它不与深度学习低维向量相容,通过将结构化知识映射到低维向量空间,便可以将语言中知识、文档、句子和词汇等单元与符号相融合,实现跨领域知识理解。
那么,这些问题该如何解决?这就不得不提及语言知识库。

目前,知识领域比较有名的两个语言知识库分别是英文知识库 WordNet 和中文知识库 HowNet(知网),其中 HowNet 提出的义原概念,让人类语言的所有词汇、短语、句子甚至文档被分解成更为细化的部分。

语言知识库
语言知识库

其中,每一个义原可以看做是独特的词义标签,这个标签的意义是明确固定且互相独立的,义原之间还标记了对应的语义关系,那么,是否可以让义原知识协助指导数据驱动知识学习?目前已经有两种方案:
利用自然语言处理比较有名的词表示学习,其中比较有名的就是以纯数据驱动的 word2vec 算法,引入 HowNet 知识库可以实现义原、词义和词汇进行联合表示学习。
而在句子层面,语言模型显得尤为重要,目前深度学习框架一般采用 CNN 或者 RNN 训练语言模型。

一般采用 CNN 或者 RNN 训练语言模型
一般采用 CNN 或者 RNN 训练语言模型

但是在实际文本中,依旧有大量的词没有在 HowNet 里面被标注,不过这个问题可以利用义原的自动推荐解决,它主要是通过整合词组成的义原实现,目前这项技术已经可以达到比较好的预测结果,它也可以被看做是未来重要的方向。

利用深度学习帮助单词相关义原知识的预测,之后再用义原知识来协助理解互联网上的文本信息,这项技术可以被用于语言和常识知识库的探索。

语言和常识知识库的探索
语言和常识知识库的探索

除了以 HowNet、WordNet 等为首的语言知识库,还有商业引擎和大型知识图谱构建的世界知识库,它不仅包含了现实世界中各种各样的实体,还涵盖了他们之间的关系,世界知识库、语言知识库整合至数据训练库中,机器学习的性能会显著提升。

世界知识库可以协助理解复杂知识文本,深度学习自然语言处理的同时协助文本中的知识获取可以让相关工作形成闭环,以此实现知识图谱和深度学习双向驱动的效果。

知识图谱的发展以及学术界的探讨

整体来看,语言知识库和知识图谱是提升机器学习性能的关键。目前大多数知识图谱依赖人工构建,仍然缺乏从大规模数据里获取的手段。

本次论坛中,清华大学的李涓子教授表示他们将会在以下几个方面做出基础性和建设性工作:

  • 支持鲁棒可解释的知识表示获取和推理的基础理论以及方法研究工作;
  • 建立大规模的知识库以及对应平台,其中知识平台主要是用于维持知识的生态系统;
  • 利用科技情报大数据简历基于学者和知识的平台,并以其为基础提供相应的智能服务;
  • 构建一个集群体智慧、开放、融合、结构化的知识图谱基础平台,从而降低构建门槛。

目前,清华的 XLORE 跨语言知识图谱已经包含大约 137 万条知识,此外,他们还基于跨语言知识库推出双语协同实体链接系统 XLink。大数据挖掘与智能服务平台 —— AMiner 则被用于学者搜索,通过给学者打上兴趣标签,用户可以利用这些标签对需要查找的专家有更深层次的了解。

除了跨语言知识图谱 XLORE、双语协同实体链接系统 XLink 和专业数据智能服务平台 AMiner ,清华还在 Github 推出集义原计算、知识表示和知识获取等算法工具汇总的工具包 Thunlp,其主要包括以下几种工具:

  • THULAC —— 中文词法分析
  • THUCTC —— 中文文本分类
  • THUTAG —— 关键词抽取与社会标签推荐
  • OpenKE —— 知识表示学习
  • OpenNRE —— 神经网络关系抽取
  • OpenNE —— 网络表示学习
  • OpenQA —— 开放域自动回答

对这套工具感兴趣的读者可以在:

GitHub地址项目 GitHub 地址

了解更多信息