第 25 届 ACM SIGKDD 知识发现与数据挖掘大会于 2019 年 8 月 4 日- 8 日在美国阿拉斯加州安克雷奇市举行。一年一度的 KDD 大会是最重要的跨学科会议,汇聚了数据科学、数据挖掘、知识发现、大规模数据分析和大数据等领域的研究人员和实践者。
今天整理了关于数据挖掘方面的内容:从文本中构建和挖掘异构信息网络,本文提供了一个全面的综述,总结了在这个方向最近的研究和发展。

摘要:
现实世界中的数据主要以非结构化文本的形式存在。数据挖掘研究的一个重大挑战是开发有效的、可伸缩的方法,将非结构化文本转换为结构化知识。基于我们的愿景,将这些文本转换为结构化的异构信息网络是非常有益的,可以根据用户的需求生成可操作的知识。
在本教程中,我们将全面概述这方面的最新研究和发展。首先,我们介绍了一系列从大规模、领域特定的文本语料库构建异构信息网络的有效方法。然后,我们讨论了基于用户需求挖掘这种文本丰富网络的方法。具体来说,我们关注的是可伸缩的、有效的、弱监督的、与语言无关的方法,这些方法可以处理各种文本。我们还将在实际数据集(包括新闻文章、科学出版物和产品评论)上进一步演示如何构建信息网络,以及如何帮助进一步的探索性分析。大纲:
一 .介绍
1. 动机:为什么要从大量文本中构建和挖掘异构信息网络?
2. 大量文本网络构建的综述
3. 关于构建网络应用探索的综述
二. 短语挖掘
1. 为什么短语挖掘以及如何定义高质量的短语?
2. 监督方法
2.1. 名词短语分块方法
2.2. 基于解析的方法
2.3. 如何在语料库级别对实体进行排序?
3. 无监督方法
3.1. 基于原始频率的方法
3.2. 基于协调的方法
3.3. 基于主题模型的方法
3.4. 对比方法
4. 弱/远程监督方法
4.1. 短语分词及其变体
4.2. 如何利用远程监督?
5. 系统演示和软件介绍
5.1. 一种多语言短语挖掘系统,它将 AutoPhrase,SegPhrase 和 TopMine 集成在一起,支持多种语言的短语挖掘(例如,英语,西班牙语,中文,阿拉伯语和日语)。
三. 信息抽取:实体,属性和关系
1. 什么是命名实体识别(NER)?
2. 传统的监督方法
2.1. CorNLL03 共享任务
2.2. 序列标注框架
2.3. 条件随机场
2.4 手工制作的特征
3. 现代端到端神经模型
3.1. 双向 LSTM 模型
3.2. 语言模型和语境化表示
3.3. Raw-to-end 模型
4. 远程监督的模型
4.1. 实体输入的数据编程
4.2. 学习特定领域的词典
5. 基于元模式的信息提取
5.1. 元模式挖掘
5.2. 元模式增强的 NER
6. 系统演示和软件
6.1 命名实体识别推理 Python 包:LightNER 。该模块可帮助用户以高效便捷的方式轻松地将预训练的NER 模型应用于他们自己的语料库。
四. 分类构建
1. 分类学基础
1.1. 分类法定义
1.2. 分类应用
1.3. 分类构建方法
2. 基于实例的分类构建
2.1. 使用的方法综述
2.2. 基于模式的方法
2.3. 监督方法
2.4. 弱监督方法
3. 基于聚类的分类构建
3.1. 分层主题建模
3.2. 一般图模型方法
3.3. 分层聚类
五. 挖掘异构信息网络(结构化分析)
1. 基本分析系统演示
1.1. AutoNet 系统:它从 PubMed 论文(标题和摘要)构建了一个巨大的结构化网络,并支持在线构建(新文档)和智能探索(搜索)。
2. 概要
2.1. 基于图的总结
2.2. 聚类和排序的总结
3. 元路径引导探索
3.1. 基于元路径的相似性
3.2. 元路径引导节点嵌入
4. 链接预测
4.1. 任务引导节点嵌入
4.2. 构建网络中的链接增强
六. 总结和未来的方向
1. 摘要
1.1. 原理与技术
1.2. 优势和局限
2. 挑战和未来的研究方向
3. 与观众的互动
3.1 如何根据您的文本数据和应用需求构建和挖掘异构信息网络?
原文链接:https://shangjingbo1226.github.io/2019-04-22-kdd-tutorial/