清华 + 美图开源大规模视频分析数据集

互联网上有大量的教学视频,可以帮助我们完成各种各样的挑战,然而,大多数现有的教学视频分析数据集在多样性和规模上都存在局限性,而实际应用程序更加多样化,这使得这些数据集显得匮乏,此外,组织利用这些数据集仍然存在巨大挑战。

为了解决以上问题,清华大学和美图开源了教程类行为视频数据集 COINCOmprehensive INstructional video analysis)。COIN 数据集采用分层结构组织,包含 11,827 个视频,包含与我们日常生活相关的 12 个领域(如车辆、小玩意等) 180 个任务的视频内容。这些视频均来自 YouTube。视频的平均长度为 2.36 分钟。每[……]

继续阅读

TensorFlow 简介与概览 – Part 8/8

强化学习 (RL) 是一种框架,可以教导智能体如何以使奖励最大化的方式在现实世界中采取行动。我们将由神经网络完成的学习称为深度强化学习 (Deep RL)。RL 框架有三种类型:基于策略、基于值和基于模型。三者的区别在于神经网络需要学习的内容。如需了解更多详情,请观看 MIT 课程 6.S091 的 Deep RL 简介讲座。当我们需要作出一系列决策时,可以借助 Deep RL 在模拟环境或真实环境中应用神经网络。其中包括游戏操作、机器人、神经架构搜索等等。DeepTraffic 环境提供了教程与代码示例,可以让您快速地在浏览器中探索、训练和评估 Deep RL 智能体。

GitHub地址项目 GitH[……]

继续阅读

TensorFlow 简介与概览 – Part 7/8

生成对抗网络 (GAN)

GAN 是一种训练网络框架,已经过优化,可以通过特定表征生成新的真实样本。简单而言,其训练过程涉及两个网络。其中一个网络称为 生成器 (generator),它会生成新的数据实例并试图欺骗另一个网络,即判别器 (discriminator),后者会对图像的真伪进行分类。

在过去几年,GAN 出现了许多变体和改进,包括从特定类别生成图像的能力,以及将图像从一个域映射到另一个域的能力,而且所生成图像的真实度也有极大提升。TensorFlow 教程:如需 GAN 早期变体的示例,请参阅有关 条件GAN 和 DCGAN 的教程。

GitHub地址项目 GitHub 地址 – 条[……]

继续阅读

TensorFlow 简介与概览 – Part 6/8

自动编码器

自动编码器是其中一种更简单的 “无监督学习” 形式,其采用编码器 — 解码器架构,并学习生成输入数据的精确副本。由于编码表征比输入数据小得多,此网络被迫学习如何生成最有意义的表征。

其 Ground truth 数据来自输入数据,因此无需人工操作。换言之,此网络可自我监督。其应用包括无监督嵌入、图像降噪等。但最重要的是,其 “表征学习” 的基本思想是下个部分的生成模型与所有深度学习的核心。在这个 TensorFlow Keras 教程 中,您可以探索自动编码器在以下两方面的功能:

  1. 对输入数据进行降噪
  2. 在 MNIST 数据集中生成嵌入

[……]

继续阅读

TensorFlow 简介与概览 – Part 5/8

编码器 / 解码器架构

前 3 部分介绍的 FFNNCNNRNN 都只是分别使用密集编码器、卷积编码器或递归编码器进行预测的网络。这些编码器可以组合或切换,具体取决于我们尝试生成有用表征的原始数据类型。“编码器 — 解码器” 架构是一种更高层次的概念,此架构基于编码步骤而构建,通过对压缩表征进行上采样的步骤来生成高维输出,而不是进行预测。

请注意,编码器与解码器彼此之间可能大不相同。例如,图像描述生成 (image captioning) 网络可能采用卷积编码器(用于图像输入)和递归解码器(用于自然语言输出)。其应用包括语义分割、机器翻译等。请参阅 MIT 驾驶场景分割[……]

继续阅读