TensorFlow 数据验证:能够大规模理解、验证和监控数据

日前,Google 推出了 TensorFlow 数据验证(TFDV),这是一个可以帮助您大规模地理解、验证和监控 ML 数据的开源库。 学术界和工业界都非常关注 ML 算法及其性能,一旦输入数据有误,所有这些为了优化而做的努力都将成为泡影。能够自动化和扩展数据分析,验证和监视任务就变得尤其重要。

TFDV 是 TFX Platform 平台的一部分,用于每天分析和验证若干 PB 的 Google 数据。 它在早期捕获数据错误方面具有良好的记录,因此有助于 TFX 客户维护其 ML 流程的健康状况。

在 TFDV 的基础上有一个功能强大的库,用于计算训练数据中的那些描述性统计数据。 这些统计信息用于帮助开发人员调查和了解他们的数据,以及推断架构(稍后将详细介绍)

  • 推断架构:根据统计数据,TFDV 推断出一种模式(由 schema.proto 描述),旨在反映数据的稳定特征。
  • 验证新数据:给定一个模式,TFDV 可以根据模式中表达的期望验证一组新数据。

在 notebook 环境之外,可以使用相同的 TFDV 库来大规模分析和验证数据。 TFX 流程中 TFDV 的两个常见用例是连续到达数据和训练 / 服务偏斜检测的验证。 此外,对于 TensorFlow Transform 的用户,可以使用推断的模式将数据解析为 preprocessing_fn。

  • 验证持续到达数据 Validation of Continuously Arriving Data:在数据连续到达的情况下,需要根据模式中编码的期望来验证新数据。
  • 训练 / 服务偏斜检测 Training/Serving Skew Detection:训练 / 服务偏斜是指用于训练模型的数据与服务系统观察到的数据之间的特征值或分布的差异。

GitHub地址项目 GitHub 地址