新冠肺炎开放知识图谱数据集更新

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 发布了《新型冠状病毒肺炎特征分析数据》。另外,OpenKG 联合国内多家科研机构,发布了《新冠肺炎开放知识图谱数据集》以及《新冠肺炎开放知识图谱数据集 – Ver 1.1。近日,OpenKG 继续更新发布多个新冠知识图谱数据集,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱。

  • 新冠概念图谱(新增)—— 新冠概念图谱从网络文本中采集了与新冠疾病相关的实体和关系(包括疾病、人物、症状等),进一步融合了从百度百科,维基百科等知识库的 infobox 中提取的实体关系。更为特别的是,本概念图谱利用自动挖掘的手段从网络文本中采集了大量细粒度的上位概念词。即此概念图谱的 is-a 层次结构(schema)是自动构建而成的,包含了细粒度的上下位层次结构。该概念图谱目前已应用于深睿医疗开发的新冠肺炎小睿医生助手中用于计算问句之间的相似度以及辅助解答用户提问。借助于细粒度的上位概念层次结构和丰富的实体间关系,本概念图谱能够为针对新冠肺炎的智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。以问句相似度计算问例,本概念图谱可以对问句中的实体利用上位概念词进行扩展,通过丰富额外的特征从而更加准确的衡量问句间相似度而将问题归类。
  • 新冠防控图谱(新增)—— 根据目前互联网公开的针对人员、场所、交通工具防控指南或手册,形成相应的知识图谱,包含防护概念的分类体系、注意事项,相关避免去的场所和不要做的事情。其中物资包含口罩等涉及一些特定商品的图谱并与防控规则关联。潜在应用包括提供基本防控知识问题,集成于流程化信息处理平台,用于各场所检查防控措施是否正确等。
  • 新冠流行病学图谱(更新)—— 删除了原有 JSON-LD 数据中的示例性病例数据共 5 条;添加了深圳市卫健委发布的 316 例新冠肺炎确诊病例的流行病学调查数据。

CVPR 2020 论文及开源项目汇总

日前,CVPR 2020 中选论文正式放榜,跨象乘云™ 为您带来了相关论文及对应开源项目的代码汇总项目 —— CVPR 2020 论文开源项目合集。该项目完整覆盖了新一代人工智能科研在:图像分类、目标检测、3D 目标检测、目标跟踪、语义分割、实例分割、视频目标分割、NAS、GAN、Re-ID、3D 点云、人脸检测、活体检测、人脸表情识别、人体姿态估计、场景文本检测、场景文本识别、模型剪枝、行为识别、人群计数、深度估计、视觉问答、视觉语言导航、视频压缩、行为轨迹预测、数据集等方面的多领域应用。

GitHub地址项目 GitHub 地址

首个量子机器学习模型框架发布:TensorFlow Quantum

Google 宣布与滑铁卢大学、大众汽车公司联合推出 TensorFlow Quantum(以下简称 TFQ),这是一个可快速搭建量子 ML 模型的开源库。TFQ 将提供把量子计算和机器学习研究相融合所必需的工具,以控制、建模自然或人工的量子系统,比如 50 到 100 个量子比特的嘈杂中型量子(NISQ)处理器。3 月 6 日,研究团队在预印本平台 arXiv 上提交了论文,对这一基于 Python 语言的新框架进行了详细解释,论文作者共有 20 多位,来自 Google 研究院、滑铁卢大学量子计算研究所、NASA 的 Quantum AI 实验室、大众汽车和神秘的 Google X 部门。

一直以来,经典的 ML 模型对科研攻关工作多有助力,比如癌症检测、预测地震和余震、预测极端天气和检测系外行星等。而新的量子 ML 模型的诞生,将有助于医学、材料、传感、通信领域取得更多突破。目前,Google 已将 TFQ 及各种经典深度学习算法用于实现量子神经网络,包括各种量子过程。Google 在论文中提供了这些量子应用的概览,每个示例都可以通过 Colab 在浏览器中运行,感兴趣的读者可查阅原论文。

TFQ 的关键功能就是能够同时训练以及执行多个量子电路。能够在计算机集群间并行化计算,能够多核计算机上模拟体量相对较大的量子电路,从而实现目标。同时,团队还发布了 Qsim,一种高性能开源的量子电路模拟器,该模拟器特别针对多核 Intel 处理器进行优化。

GitHub地址项目 GitHub 地址

2020 年人脸识别数据集汇总

面向深度学习的人脸识别,是指能够识别或验证图像或视频中的主体的身份的技术。现今,现在相比于指纹或虹膜识别等传统上被认为更加稳健的生物识别方法,人们往往更偏爱人脸识别。让人脸识别比其它生物识别方法更受欢迎的一大不同之处是人脸识别本质上是非侵入性的。《人脸识别》课程将通过大量有趣的实验案例,让学生充分了解人脸识别的各项关键技术,包括:人脸定位,人脸关键点识别,人脸识别等。这里提供2020 年 16 套人脸识别数据集汇总,可用于人工智能实验室建设科研分析与教学应用。

Japanese Female Facial Expression
Japanese Female Facial Expression

1. The Japanese Female Facial Expression (JAFFE) Database

该数据库是由 10 位日本女性在实验环境下根据指示做出各种表情,再由照相机拍摄获取的人脸表情图像。整个数据库一共有 213 张图像,10 个人,全部都是女性,每个人做出 7 种表情,这 7 种表情分别是:悲伤,快乐,愤怒,厌恶,惊讶,恐惧,中立。每个人为一组,每一组都含有 7 种表情,每种表情大概有 3, 4 张样图。

2. PubFig: Public Figures Face Database

哥伦比亚大学公众人物脸部数据库(PubFig),这是哥伦比亚大学的公众人物脸部数据集,包含有 200 个人的 58k+ 人脸图像,主要用于非限制场景下的人脸识别。

PubFig - Public Figures Face Database
PubFig – Public Figures Face Database

3. Large-scale CelebFaces Attributes (CelebA) Dataset

这是由香港中文大学汤晓鸥教授实验室公布的大型人脸识别数据集。该数据集包含有 200K 张人脸图片,人脸属性有 40 多种,主要用于人脸属性的识别。

Large-scale CelebFaces Attributes (CelebA) Dataset
Large-scale CelebFaces Attributes (CelebA) Dataset

4. color FERET Database V2

为促进人脸识别算法的研究和实用化,美国国防部的 Counterdrug Technology Transfer Program (CTTP) 发起了一个人脸识别技术(Face Recognition Technology 简称:FERET)工程,它包括了一个通用人脸库以及通用测试标准。到 1997 年,它已经包含了 1,000 多人的 10,000 多张照片,每个人包括了不同表情,光照,姿态和年龄的照片。

5. Facial Landmark Detection by Deep Multi-task Learning

该数据集包含了将近 13,000 张人脸图片,均采自网络。

Facial Landmark Detection by Deep Multi-task Learning
Facial Landmark Detection by Deep Multi-task Learning

6. The BioID Face Database

这个数据集包含了 1,521 幅分辨率为 384 x 286 像素的灰度图像。每一幅图像来自于 23 个不同的测试人员的正面角度的人脸。为了便于做比较,这个数据集也包含了对人脸图像对应的手工标注的人眼位置文件。

The BioID Face Database
The BioID Face Database

7. Labeled Faces in the Wild Home

LFW 数据集是为了研究非限制环境下的人脸识别问题而建立的。这个数据集包含超过 13,000 张人脸图像,均采集于 Internet。每个人脸均被标准了一个人名。其中,大约 1,680 个人包含两个以上的人脸。这个集合被广泛应用于评价 Face Verification 算法的性能。

Labeled Faces in the Wild Home
Labeled Faces in the Wild Home

8. Semi-supervised Learning with Constraints for Person Identification in Multimedia Data

该数据集所选用的人脸照片均来自于两部比较知名的电视剧,《吸血鬼猎人巴菲》和《生活大爆炸》。

9. The CMU Multi-PIE Face Database

CMU PIE 人脸库建立于 2000 年 11 月,它包括来自 68 个人的 40,000 张照片,其中包括了每个人的 13 种姿态条件,43 种光照条件和 4 种表情下的照片,现有的多姿态人脸识别的文献基本上都是在 CMU PIE 人脸库上测试的。

10. YouTube Faces DB

YouTube Video Faces 是用来做人脸验证的。在这个数据集下,算法需要判断两段视频里面是不是同一个人。有不少在照片上有效的方法,在视频上未必有效/高效。

YouTube Faces DB
YouTube Faces DB

11. CASIA-FaceV5

该数据集包含了来自 500 个人的 2,500 张亚洲人脸图片。

12. Face Place

该数据集采集了 200 个人在不同状态下(不同的神情,装扮,发型等)的人脸照片。

Face Place
Face Place

13. CASIA-3D FaceV1

该数据集包含了来自 123 个人的 4,624 张人脸图片,所有图片均由下图的仪器进行拍摄。

14. IMDB-WIKI – 500k+ face images with age and gender labels

IMDB-WIKI 人脸数据库是有 IMDB 数据库和 Wikipedia 数据库组成,其中 IMDB 人脸数据库包含了 460,723 张人脸图片,而 Wikipedia 人脸数据库包含了 62,328 张人脸数据库,总共 523,051 张人脸数据库,IMDB-WIKI 人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识别和性别识别的研究有着重要的意义。

IMDB-WIKI – 500k+ face images with age and gender labels
IMDB-WIKI – 500k+ face images with age and gender labels

15. Face Detection Data Set and Benchmark Home

FDDB 是 UMass 的数据集,被用来做人脸检测(Face Detection)。这个数据集比较大,比较有挑战性。而且作者提供了程序用来评估检测结果,所以在这个数据上面比较算法也相对公平。

16. Caltech 10,000 Web Faces

数据集包含通过在谷歌图像搜索中输入常见的人名从网上收集的人的图像。每个正面面孔的眼睛、鼻子和嘴巴中心的坐标在 ground truth 文件中提供。这些信息可以用来对齐和裁剪人脸,或者作为人脸检测算法的基础事实。数据集有 10,524 张不同分辨率和不同设置的人脸,如人像图像、人群等。侧面或非常低分辨率的面没有标记。

《工业大数据分析指南》2019 版

2019 年 2 月,由工业和信息化部指导,中国信息通信研究院、工业互联网产业联盟、中国通信学会联合主办的 2019 工业互联网峰会在北京国家会议中心举行。在 22 日的主论坛上,工业互联网产业联盟发布了《工业大数据分析指南》白皮书,清华大学大数据系统软件国家工程实验室总工程师王晨对白皮书进行了解读。

新型冠状病毒肺炎开源项目

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

其中,针对 2020 年初在武汉爆发的新型冠状病毒疫情,新型冠状病毒防疫信息收集平台项目,旨在收集各医院、酒店、工厂、物流、捐赠、捐款、预防、治疗、动态等信息,统一收集,统一发布,以便各方之间进行信息互通,有效调配社会资源。

另外,除了 2019-nCoV 的现状和如何防护是我们关注的重点,这个疫情的起源也是一个关注点,2019-nCoV 时间线项目,记录了自 2019 年 12 月起武汉新冠肺炎疫情进展的时间线,由于一些敏感信息会导致删帖等操作,该项目完整地保留了舆情,如果你有兴趣可以阅读下该项目收录的文章,一个事件的生命周期在人们遗忘它的那刻便结束了,希望我们都不要忘记这段历史。

MIT 在线文本转语音应用

来自 MIT 的 15.ai,提供在线免费的文本转语音应用。可以用它来生成各种字符的 44.1 kHz 声音。这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的『声情并茂』了。使用起来非常简单,主页中的『Source』提供了几部电影或动画,『Character』提供了里面的一些角色。只需要在文本框中输入不多于 140 字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。

韩国新型冠状病毒肺炎病例数据集

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 引述了《新型冠状病毒肺炎特征分析数据》,及全球范围内《新型冠状病毒肺炎统计数据集》。近日,韩国疾控中心(KCDC,Korea Centers for Disease Control & Prevention)在 Kaggle 上更新了一个 COVID-2019 的全国病例数据集,共计 5,766 个病例。该数据集详细记录了韩国目前已经确诊的 5,766 名病例的基本信息,以及自韩国首例确诊病例以来全国的数据增长情况。数据由韩国疾控中心官方公布,目前在 Kaggle 上已有近 5,000 次下载。

数据共分为三个部分:

  1. 病例基本信息:包括编号、性别、国籍、地区、感染原因、接触人数、确诊时间、目前状态等;
  2. 病毒传染路线:里面记录了 1 月 19 日以来各省市的首次发现确诊的地点,包括是在机场还是在餐馆,以及经纬度都进行了详细的记录;
  3. 韩国的 1 月 20 日以来韩国感染病例的增加情况,包括每天的确诊数量,疑似数量等。

数据集下载:Dataset of COVID-19 in South Korea

语音增强项目:Speech-enhancement

在语音识别与自然语言处理实验室建设过程中,语音数据是非常重要的科研资源之一。同时,语音数据面临的最大挑战在于在录制语音的过程中,周边环境噪音带来的对数据质量的影响。正因如此,Speech-enhancement 语音增强项目旨在建立一个语音增强系统来衰减环境噪声。

为了创建用于训练的数据集,收集了来自不同来源的英语语音的干净声音和环境噪音 —— 干净的声音主要来自 LibriSpeech:基于公共领域有声读物的 ASR 语料库。另外,使用了SiSec 的一些数据 —— 由总共 100 首不同风格的全音轨歌曲组成,包括混合物和四个原始音源及音干。环境噪声是从 ESC-50 数据集(完整版 ESC 语音语料库)以及部分用于 Matlab 实验教学的数据集。在这个项目中,重点研究了10类环境噪声:时钟,脚步声,铃铛,手锯,警报,烟花,昆虫,刷牙,吸尘器和打鼾。

为了创建用于训练 / 验证 / 测试的数据集,音频以 8kHz 采样,并且在 1 秒以上的时间内略微提取了窗口。对环境噪声进行了一些数据扩充(在不同时间获取窗口会创建不同的噪声窗口)。噪声已经混合在一起,以随机化的噪声级别(介于 20% 和 80% 之间)来清除声音。最后,训练数据包括 10h 的嘈杂声和干净的声音,以及 1h 的声音验证数据。

GitHub地址项目 GitHub 地址

新型冠状病毒肺炎统计数据集

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 引述了《新型冠状病毒肺炎特征分析数据》,来自发表于《中华流行病学杂志》相关论文,截至 2020 年 2 月 11 日中国内地报告的超过 7 万病例分析。近日,世界卫生组织发布了关于 2019 年新型冠状病毒感染病例数、死亡人数和恢复情况的信息,这是一个时间序列数据,因此任何一天的病例数都是累积数 —— 数据详细描述请访问 Kaggle 页面。

Coronavirus disease (COVID-19) outbreak
Coronavirus disease (COVID-19) outbreak

同时,约翰霍普金斯大学利用受影响的病例数据制作了一个可视化仪表盘。此数据是从同一个链接提取的,并以 CSV 格式提供。