UC 圣地亚哥大学开源新冠肺炎 CT 数据集

截至 2020 年 3 月 30 日,在全世界范围内已有 775,306 人感染新冠肺炎,37,083 人死亡。对此疾病检测的低效和缺乏成为控制其传播的主要障碍。目前的检测主要基于逆转录聚合酶链反应(RT-PCR),需要 4 到 6 个小时才能获得结果。与新冠肺炎可怕的传播速度相比,这远不够快。除了效率低下之外,RT-PCR 检测试剂盒也非常短缺。

这促使研究团队去研究替代的检测方式。这些方式可能更快,比 RT-PCR 便宜,更容易获得,但与 RT-PCR 一样准确。在众多可能性中,研究团队对 CT 图像尤其感兴趣。有几篇著作研究了 CT 图像在筛选和检测新冠肺炎时的效果,结果鼓舞人心。然而,出于对隐私的保护,这些研究中所使用的 CT 图像并不会公之于众,这极大地阻碍了基于 CT 图像的精准检测新冠肺炎先进人工智能方法的研发。

为了解决这个问题,研究团队构建了一个 COVID-CT 数据集,其中包含 275 个新冠肺炎检测呈阳性的 CT 图像,并向公众开放,以助于基于 CT 图像的新冠肺炎检测的研发。

研究团队从 760 个关于新冠肺炎的 medRxiv 和 bioRxiv 预印本中提取了 CT 图像,并通过阅读这些图像的标题人工筛选出具有新冠肺炎临床病症的图像。基于 183 个新冠肺炎 CT 图像和 146 个非新冠肺炎 CT 图像,研究团队训练了一个深度学习模型,以预测一个 CT 图像是否呈新冠肺炎阳性。

在 35 个新冠肺炎 CT 图像和 34 个非新冠肺炎 CT 图像上进行了测试,研究团队的模型 F1 值为 0.85。结果表明,CT 扫描有望用于筛选和检测新冠肺炎,然而还需要更先进的方法来进一步提高准确性。

GitHub地址项目 GitHub 地址

DeepLesion:最大开源临床医疗图像数据集

NIH 临床中心最新公布了一个迄今规模最大的多类别、病灶级别标注临床医疗 CT 图像开放数据集 DeepLesion,研究人员在此基础上训练深度神经网络,创建了一个具有统一框架的大规模通用病灶检测器,能够更准确、更自动地衡量患者体内所有病灶的大小,实现全身范围的癌症初步评估。数据集包含:

  • 4,427 名独立的匿名患者
  • 10,594 次 CT 扫描(平均每位患者有 3 次随访)
  • 32,735 个带标记的病灶实例
  • 一共 928,020 张 CT 横切图像(512×512 分辨率)

新型冠状病毒肺炎 (COVID-19) 数据集汇总

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 发布了多份新型冠状病毒肺炎(COVID-19)相关的数据集。随着关于新型冠状病毒病毒疫情的不断发展,有关疫情的各类信息和数据也在不断更新。结合日前『图灵公众号』(微信公众号:TOPIA)整理的新冠数据集,在这里作一个阶段性汇总。

  1. 微软、白宫发布的 COVID-19 开放研究数据集(COVID-19 Open Research Dataset Challenge (CORD-19)):为了应对 COVID-19 大流行,白宫和一个主要研究小组联盟准备了 COVID-19 公开研究数据集(CORD-19)。CORD-19 是一个拥有超过 44,000 篇学术文章的资源,包括 29,000 篇关于 COVID-19、SARS-CoV-2 和相关冠状病毒的全文。这个免费的数据集提供给全球研究界,以应用自然语言处理和其他人工智能技术的最新进展,产生新的见解,支持正在进行的对抗这种传染病的斗争。由于新冠状病毒文献的快速增加,使得医学研究社区难以跟上,因此这些方法的紧迫性日益增加。总数据量超过 4 GB。
  2. 武汉新冠肺炎时间线(wuhan2020-timeline):时间线梳理以官媒信息为经,以民营媒体、自媒体为纬,以事系日,着力关注疫情扩散与舆论场域,力图呈现武汉新冠肺炎始末。(Academic2019-nCoV项目自 1 月 28 日每天发布关于海外疫情的详尽信息,与本项目互补。)
  3. 新型冠状病毒肺炎特征分析数据:中国疾病预防控制中心发布迄今最大规模的新冠肺炎流行病学特征分析,其原始数据(COVID-19 特征总表)来自截至 2020 年 2 月 11 日中国内地报告的超过 7 万病例。
  4. 胸部放射影像数据集:CheXpert:该数据集包含来自 65,240 个病人的 224,316 张胸部放射影像,这些影像中标注了 14 种常见的胸部放射影像观察结果。作者设计了一个标注工具,它能够从放射报告文本中提取观察结果并使用不确定性标签捕捉报告中存在的不确定性。
  5. 韩国 COVID-19 新冠肺炎胸片图像数据集(COVID-19 image data collection):2019 年的新型冠状病毒(COVID-19)呈现出几个独特的特征。虽然诊断是通过聚合酶链反应(PCR)确诊的,但感染肺炎的患者可能出现在胸部 X 线和计算机断层扫描(CT)图像上,其模式仅为人眼 Ng 的中度特征,2020年。COVID-19 的传播率取决于我们以低假阴性率可靠地识别受感染患者的能力。此外,低误报率是必要的,以避免进一步增加医疗系统的负担,不必要地让病人接受隔离,如果不需要隔离的话。除了适当的感染控制外,很明显,及时发现疾病将使受 COVID-19 影响的患者能够实施所需的所有支持性护理。我们的目标是利用这些图像来开发基于人工智能的方法来预测和理解感染。我们的团队将使用开源的 Chester AI Radiology Assistant 平台来发布这些模型,该平台的设计是通过在本地执行计算来满足全球需求。
  6. 韩国新型冠状病毒肺炎病例数据集(Data Science for COVID-19 (DS4C)):该数据集此前曾在跨象乘云™ 发布,目前已更新 ——COVID-19 在韩国已经感染了 8,000 多人。韩国疾病预防控制中心(KCDC)迅速、透明地公布了 COVID-19 的信息。基于 KCDC 和地方政府的报告材料,我们构建了一个结构化的数据集。此外,我们还使用各种数据挖掘或可视化技术分析和可视化数据。
  7. 新冠病毒时序数据集(Novel Corona virus – COVID19):这种新型冠状病毒已经在世界范围内产生了影响。它影响了来自不同国家的人。该数据集提供了一个时间序列数据,跟踪受该病毒影响的人数、该病毒造成的死亡人数以及已报告的康复人数。更新源自跨象乘云™ 此前发布的:2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE
  8. 英国的冠状病毒追踪器(COVID-19: track coronavirus cases):仪表板显示英国报告的冠状病毒病例,包括新病例,英格兰上级地方当局的病例以及死亡人数。可下载数据包括:日常指标每日确诊病例数NHS 英格兰地区病例表UTLA 病例表
  9. 各国名人感染名单(Celebrities with Corona)。
  10. 跟踪 COVID-19(Coronavirus COVID-19 Global Cases by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU)):跟踪 COVID-19 在交互式仪表板上实时传播,并提供可供下载的数据。
  11. Coronanalytics:冠状病毒每日分析 —— 这个简单的网站,可以看到大家都在谈论的曲线。媒体只提供今天的数字,所有的图表显示的是累计总数,而不是每天的案件。通过观察每天病例的增长或减缓,更容易看出趋势并了解指数增长是否正在发生。这个网站使用了来自2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE 的数据,这些数据随后被处理以显示每天的新病例,而不是累积总数。他们在协调世界时晚上 11:59 更新它,所以它不一定有今天的数据,有时今天的数据会显示为零(遗憾的是,这并不一定意味着这个国家没有病例!)
  12. 新冠肺炎开放知识图谱数据集:由 OpenKG 联合国内多家科研机构合作发布。跨象乘云™ 此前一直在密集跟踪并更新(1, 2, 3)。
  13. 新型冠状病毒时间表(Tracking coronavirus: Map, data and timeline):全球冠状病毒(2019-nCoV,正式称为SARS-CoV-2或COVID-19)的地图,数据和时间表。
  14. 新型冠状病毒研究资源(COVID-19 Open Research Dataset (CORD-19)):COVID-19 大流行,艾伦人工智能研究所已与领先的研究小组准备和分发 COVID-19 开放研究数据集(CORD-19),免费资源超过 44,000 学术文章,包括超过 29,000 全文,COVID-19 和冠状病毒的病毒家族使用的全球研究社区。该数据集旨在动员研究人员应用自然语言处理的最新进展,以产生新的见解,支持与这种传染病的斗争。随着新的研究成果发表在同行评审的出版物和 bioRxiv、medRxiv 等档案服务上,语料库将每周更新一次。
  15. 新型冠状病毒 News Hub(CORONAVIRUS: THE HUB):来自世界上最可信赖的来源的 COVID-19 新闻,分析和最佳实践的集合。
  16. 新型冠状病毒经济影响指数(COVID 19 – economic effects):新型冠状病毒对 GDP 的影响。
  17. 新型冠状病毒仪表板(nCoV2019.live):实时冠状病毒仪表板跟踪器。查看数据,地图,社交媒体趋势,并了解预防措施。
  18. 2019 新型冠状病毒数据(2019 Wuhan Coronavirus data (COVID-19 / 2019-nCoV)):该公共存储库会随着时间的推移从网络上的各种公共来源存档数据。
  19. 新型冠状病毒追踪器(Coronavirus Tracker):最快的实时服务,可跟踪武汉病毒,它提供实时数据以及 COVID-19 冠状病毒的全球冠状病毒新闻报道更新。
  20. 日冕地图:日冕病毒大流行在空间和时间上的映射。

新冠肺炎开放知识图谱数据集更新

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 发布了《新型冠状病毒肺炎特征分析数据》。另外,OpenKG 联合国内多家科研机构,发布了《新冠肺炎开放知识图谱数据集》以及《新冠肺炎开放知识图谱数据集 – Ver 1.1。近日,OpenKG 继续更新发布多个新冠知识图谱数据集,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱。

  • 新冠概念图谱(新增)—— 新冠概念图谱从网络文本中采集了与新冠疾病相关的实体和关系(包括疾病、人物、症状等),进一步融合了从百度百科,维基百科等知识库的 infobox 中提取的实体关系。更为特别的是,本概念图谱利用自动挖掘的手段从网络文本中采集了大量细粒度的上位概念词。即此概念图谱的 is-a 层次结构(schema)是自动构建而成的,包含了细粒度的上下位层次结构。该概念图谱目前已应用于深睿医疗开发的新冠肺炎小睿医生助手中用于计算问句之间的相似度以及辅助解答用户提问。借助于细粒度的上位概念层次结构和丰富的实体间关系,本概念图谱能够为针对新冠肺炎的智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。以问句相似度计算问例,本概念图谱可以对问句中的实体利用上位概念词进行扩展,通过丰富额外的特征从而更加准确的衡量问句间相似度而将问题归类。
  • 新冠防控图谱(新增)—— 根据目前互联网公开的针对人员、场所、交通工具防控指南或手册,形成相应的知识图谱,包含防护概念的分类体系、注意事项,相关避免去的场所和不要做的事情。其中物资包含口罩等涉及一些特定商品的图谱并与防控规则关联。潜在应用包括提供基本防控知识问题,集成于流程化信息处理平台,用于各场所检查防控措施是否正确等。
  • 新冠流行病学图谱(更新)—— 删除了原有 JSON-LD 数据中的示例性病例数据共 5 条;添加了深圳市卫健委发布的 316 例新冠肺炎确诊病例的流行病学调查数据。

2020 年人脸识别数据集汇总

面向深度学习的人脸识别,是指能够识别或验证图像或视频中的主体的身份的技术。现今,现在相比于指纹或虹膜识别等传统上被认为更加稳健的生物识别方法,人们往往更偏爱人脸识别。让人脸识别比其它生物识别方法更受欢迎的一大不同之处是人脸识别本质上是非侵入性的。《人脸识别》课程将通过大量有趣的实验案例,让学生充分了解人脸识别的各项关键技术,包括:人脸定位,人脸关键点识别,人脸识别等。这里提供2020 年 16 套人脸识别数据集汇总,可用于人工智能实验室建设科研分析与教学应用。

Japanese Female Facial Expression
Japanese Female Facial Expression

1. The Japanese Female Facial Expression (JAFFE) Database

该数据库是由 10 位日本女性在实验环境下根据指示做出各种表情,再由照相机拍摄获取的人脸表情图像。整个数据库一共有 213 张图像,10 个人,全部都是女性,每个人做出 7 种表情,这 7 种表情分别是:悲伤,快乐,愤怒,厌恶,惊讶,恐惧,中立。每个人为一组,每一组都含有 7 种表情,每种表情大概有 3, 4 张样图。

2. PubFig: Public Figures Face Database

哥伦比亚大学公众人物脸部数据库(PubFig),这是哥伦比亚大学的公众人物脸部数据集,包含有 200 个人的 58k+ 人脸图像,主要用于非限制场景下的人脸识别。

PubFig - Public Figures Face Database
PubFig – Public Figures Face Database

3. Large-scale CelebFaces Attributes (CelebA) Dataset

这是由香港中文大学汤晓鸥教授实验室公布的大型人脸识别数据集。该数据集包含有 200K 张人脸图片,人脸属性有 40 多种,主要用于人脸属性的识别。

Large-scale CelebFaces Attributes (CelebA) Dataset
Large-scale CelebFaces Attributes (CelebA) Dataset

4. color FERET Database V2

为促进人脸识别算法的研究和实用化,美国国防部的 Counterdrug Technology Transfer Program (CTTP) 发起了一个人脸识别技术(Face Recognition Technology 简称:FERET)工程,它包括了一个通用人脸库以及通用测试标准。到 1997 年,它已经包含了 1,000 多人的 10,000 多张照片,每个人包括了不同表情,光照,姿态和年龄的照片。

5. Facial Landmark Detection by Deep Multi-task Learning

该数据集包含了将近 13,000 张人脸图片,均采自网络。

Facial Landmark Detection by Deep Multi-task Learning
Facial Landmark Detection by Deep Multi-task Learning

6. The BioID Face Database

这个数据集包含了 1,521 幅分辨率为 384 x 286 像素的灰度图像。每一幅图像来自于 23 个不同的测试人员的正面角度的人脸。为了便于做比较,这个数据集也包含了对人脸图像对应的手工标注的人眼位置文件。

The BioID Face Database
The BioID Face Database

7. Labeled Faces in the Wild Home

LFW 数据集是为了研究非限制环境下的人脸识别问题而建立的。这个数据集包含超过 13,000 张人脸图像,均采集于 Internet。每个人脸均被标准了一个人名。其中,大约 1,680 个人包含两个以上的人脸。这个集合被广泛应用于评价 Face Verification 算法的性能。

Labeled Faces in the Wild Home
Labeled Faces in the Wild Home

8. Semi-supervised Learning with Constraints for Person Identification in Multimedia Data

该数据集所选用的人脸照片均来自于两部比较知名的电视剧,《吸血鬼猎人巴菲》和《生活大爆炸》。

9. The CMU Multi-PIE Face Database

CMU PIE 人脸库建立于 2000 年 11 月,它包括来自 68 个人的 40,000 张照片,其中包括了每个人的 13 种姿态条件,43 种光照条件和 4 种表情下的照片,现有的多姿态人脸识别的文献基本上都是在 CMU PIE 人脸库上测试的。

10. YouTube Faces DB

YouTube Video Faces 是用来做人脸验证的。在这个数据集下,算法需要判断两段视频里面是不是同一个人。有不少在照片上有效的方法,在视频上未必有效/高效。

YouTube Faces DB
YouTube Faces DB

11. CASIA-FaceV5

该数据集包含了来自 500 个人的 2,500 张亚洲人脸图片。

12. Face Place

该数据集采集了 200 个人在不同状态下(不同的神情,装扮,发型等)的人脸照片。

Face Place
Face Place

13. CASIA-3D FaceV1

该数据集包含了来自 123 个人的 4,624 张人脸图片,所有图片均由下图的仪器进行拍摄。

14. IMDB-WIKI – 500k+ face images with age and gender labels

IMDB-WIKI 人脸数据库是有 IMDB 数据库和 Wikipedia 数据库组成,其中 IMDB 人脸数据库包含了 460,723 张人脸图片,而 Wikipedia 人脸数据库包含了 62,328 张人脸数据库,总共 523,051 张人脸数据库,IMDB-WIKI 人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识别和性别识别的研究有着重要的意义。

IMDB-WIKI – 500k+ face images with age and gender labels
IMDB-WIKI – 500k+ face images with age and gender labels

15. Face Detection Data Set and Benchmark Home

FDDB 是 UMass 的数据集,被用来做人脸检测(Face Detection)。这个数据集比较大,比较有挑战性。而且作者提供了程序用来评估检测结果,所以在这个数据上面比较算法也相对公平。

16. Caltech 10,000 Web Faces

数据集包含通过在谷歌图像搜索中输入常见的人名从网上收集的人的图像。每个正面面孔的眼睛、鼻子和嘴巴中心的坐标在 ground truth 文件中提供。这些信息可以用来对齐和裁剪人脸,或者作为人脸检测算法的基础事实。数据集有 10,524 张不同分辨率和不同设置的人脸,如人像图像、人群等。侧面或非常低分辨率的面没有标记。

新型冠状病毒肺炎开源项目

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

其中,针对 2020 年初在武汉爆发的新型冠状病毒疫情,新型冠状病毒防疫信息收集平台项目,旨在收集各医院、酒店、工厂、物流、捐赠、捐款、预防、治疗、动态等信息,统一收集,统一发布,以便各方之间进行信息互通,有效调配社会资源。

另外,除了 2019-nCoV 的现状和如何防护是我们关注的重点,这个疫情的起源也是一个关注点,2019-nCoV 时间线项目,记录了自 2019 年 12 月起武汉新冠肺炎疫情进展的时间线,由于一些敏感信息会导致删帖等操作,该项目完整地保留了舆情,如果你有兴趣可以阅读下该项目收录的文章,一个事件的生命周期在人们遗忘它的那刻便结束了,希望我们都不要忘记这段历史。

韩国新型冠状病毒肺炎病例数据集

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 引述了《新型冠状病毒肺炎特征分析数据》,及全球范围内《新型冠状病毒肺炎统计数据集》。近日,韩国疾控中心(KCDC,Korea Centers for Disease Control & Prevention)在 Kaggle 上更新了一个 COVID-2019 的全国病例数据集,共计 5,766 个病例。该数据集详细记录了韩国目前已经确诊的 5,766 名病例的基本信息,以及自韩国首例确诊病例以来全国的数据增长情况。数据由韩国疾控中心官方公布,目前在 Kaggle 上已有近 5,000 次下载。

数据共分为三个部分:

  1. 病例基本信息:包括编号、性别、国籍、地区、感染原因、接触人数、确诊时间、目前状态等;
  2. 病毒传染路线:里面记录了 1 月 19 日以来各省市的首次发现确诊的地点,包括是在机场还是在餐馆,以及经纬度都进行了详细的记录;
  3. 韩国的 1 月 20 日以来韩国感染病例的增加情况,包括每天的确诊数量,疑似数量等。

数据集下载:Dataset of COVID-19 in South Korea

语音增强项目:Speech-enhancement

在语音识别与自然语言处理实验室建设过程中,语音数据是非常重要的科研资源之一。同时,语音数据面临的最大挑战在于在录制语音的过程中,周边环境噪音带来的对数据质量的影响。正因如此,Speech-enhancement 语音增强项目旨在建立一个语音增强系统来衰减环境噪声。

为了创建用于训练的数据集,收集了来自不同来源的英语语音的干净声音和环境噪音 —— 干净的声音主要来自 LibriSpeech:基于公共领域有声读物的 ASR 语料库。另外,使用了SiSec 的一些数据 —— 由总共 100 首不同风格的全音轨歌曲组成,包括混合物和四个原始音源及音干。环境噪声是从 ESC-50 数据集(完整版 ESC 语音语料库)以及部分用于 Matlab 实验教学的数据集。在这个项目中,重点研究了10类环境噪声:时钟,脚步声,铃铛,手锯,警报,烟花,昆虫,刷牙,吸尘器和打鼾。

为了创建用于训练 / 验证 / 测试的数据集,音频以 8kHz 采样,并且在 1 秒以上的时间内略微提取了窗口。对环境噪声进行了一些数据扩充(在不同时间获取窗口会创建不同的噪声窗口)。噪声已经混合在一起,以随机化的噪声级别(介于 20% 和 80% 之间)来清除声音。最后,训练数据包括 10h 的嘈杂声和干净的声音,以及 1h 的声音验证数据。

GitHub地址项目 GitHub 地址

新型冠状病毒肺炎统计数据集

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

此前,跨象乘云™ 引述了《新型冠状病毒肺炎特征分析数据》,来自发表于《中华流行病学杂志》相关论文,截至 2020 年 2 月 11 日中国内地报告的超过 7 万病例分析。近日,世界卫生组织发布了关于 2019 年新型冠状病毒感染病例数、死亡人数和恢复情况的信息,这是一个时间序列数据,因此任何一天的病例数都是累积数 —— 数据详细描述请访问 Kaggle 页面。

Coronavirus disease (COVID-19) outbreak
Coronavirus disease (COVID-19) outbreak

同时,约翰霍普金斯大学利用受影响的病例数据制作了一个可视化仪表盘。此数据是从同一个链接提取的,并以 CSV 格式提供。

中文自然语言处理数据集搜索引擎

本项目,可能是目前最全的中文 NLP 数据集信息收集及搜索引擎。该项目收集了一百多条中文自然语言处理数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。

项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

GitHub地址项目 GitHub 地址