胸部放射影像数据集:CheXpert

在这次新冠肺炎『战疫』中,面向医疗医学的深度学习与新一代人工智能科研攻关越显重要。如:在 Keras 中通过递归神经网络(RNN)为时间序列数据建模;使用 MedNIST 数据集进行医学图像分类;应用深度学习数据科学工作流在医疗领域;使用 DIGITS 实现医学影像分割;使用 TensorFlow 实现图像分类;使用 R 和 MXNet 实现医学影像分析;使用 GAN 对医学图像进行数据集扩展与图像分割;将由粗到细的上下文记忆应用于医学影像 …… 都是非常热门的研究方向。

其中,胸部放射影像是全球最常见的影像检查,对很多威胁终身的疾病的筛查、诊断和治疗至关重要。在论文《CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison》中,作者介绍了一种用于解释胸部放射影像的大型数据集 —— CheXpert(Chest eXpert)。该数据集包含来自 65,240 个病人的 224,316 张胸部放射影像,这些影像中标注了 14 种常见的胸部放射影像观察结果。作者设计了一个标注工具,它能够从放射报告文本中提取观察结果并使用不确定性标签捕捉报告中存在的不确定性。

CheXpert 的任务是要根据多视角胸部放射影像来预测 14 种不同观察结果的概率。作者尤其关注数据集中的不确定性标签,并研究了结合这些不确定性标签来训练模型的不同方法。然后在包含 200 项标记的验证集上评估了这些不确定性方法的性能,这些标注真值由 3 位放射科医生一致确定,他们用放射影像注释了该验证集。作者根据病理的临床意义和在数据集中的流行程度,在 5 个选定的观察结果上评估其方法,发现不同的不确定性方法能够用于不同的观察结果。