自动语音识别包 wav2letter 升级

生物识别技术,包括:指纹,虹膜,人脸,静脉以及声纹等,利用人体固有的生理特性(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。另一方面 —— 机器要听懂人类说话,就离不开语音识别技术(ASR)。因此,语音识别成为计算机识别技术以外应用最为广泛的新一代人工智能技术 ——

  • 苹果的用户肯定都体验过 Siri ,就是典型的语音识别;
  • 微信里有一个功能是『文字语音转文字』,也利用了语音识别;
  • 最近流行的智能音箱就是以语音识别为核心的产品;
  • 比较新款的汽车基本都有语音控制的功能,这也是语音识别;

自动语音识别(ASR)涉及自动将录制的语音转录为文本的模型、算法和系统。这是一个很难解决的问题,因为录制的语音可能变化很大——我们不一定是说话者是谁,录制语音的地方,或者信号中是否有其他声源(如噪音或竞争性说话者)。解决语音识别问题需要对机器学习、信号处理和声学语音学有所了解。此前,跨象乘云™ 介绍了 Facebook AI 研究院开源的端到端语音识别系统 wav2letter,一套简单高效的自动语音识别系统(ASR)。

日前,Facebook 发布了新一代在线自动语音识别系统 —— wav2letter@anywhere,wav2letter@anywhere 是由 wav2letterwav2letter++ 这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统。自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++ 存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。

GitHub地址项目 GitHub 地址

AWS 开源高性能模型生成器:AutoGluon

作为自动化机器学习平台的其中一员,基于 MXNet 深度学习框架(支持 Pytorch)的 AWS AutoGluon 于 1 月 9 日正式发布,在这之前,AutoGluon 已经在 Github 上悄悄上线一个月了 —— 新一代人工智能实验室的科研人员,以及 AI 开发者们,均可以通过它构建包含图像、文本或表格数据集的机器学习应用程序,并且不需要进行任何手动测试。

AutoGluon 为开发人员自动化了许多决策。通常,像超参数调优这样的任务是需要手动执行的,这要求科学家预测超参数 —— 表示在构建 AI 模型时所做的选择 —— 将如何影响模型训练。另一个通常被称为神经架构搜索,这是一个需要人工监督的复杂工程,在某种程度上,开发人员必须为他们各自的模型确定最佳设计。AutoGluon 可以开箱即用地识别用于表格预测、图像和文本分类以及对象检测的模型,它还提供了一个 API,更有经验的开发人员可以利用该 API 进一步改进模型的预测性能。

Amazon’s AutoGluon helps developers deploy deep learning models with just a few lines of code
Amazon’s AutoGluon helps developers deploy deep learning models with just a few lines of code

开发人员无需在设计深度学习模型时手动尝试必须做出的数百种选择,只需简单地指定让训练好的模型就绪的时间即可。作为响应,AutoGluon 可以利用可用的计算资源在其分配的运行时间内找到最强大的模型。AutoGluon 可以通过自动调整默认范围内的选择来生成仅需三行代码的模型,而这些默认范围在已知范围内可以很好地完成给定任务。开发人员只需指定他们何时准备好训练后的模型,AutoGluon 就会利用可用的计算资源来在分配的 runtime 中找到最强大的模型。

同时,AutoGluon 官方网站为开发人员提供了许多工程案例教程,可利用它们对表格,文本和图像数据进行深度学习(诸如涵盖分类 / 回归等基本任务以及对象检测等更高级的任务)。无疑对本科、研究生人工智能专业建设,提供了重要的项目案例教育资源补充。

GitHub地址项目 GitHub 地址

CNN 101:卷积神经网络的交互式视觉学习

为了应对深度学习模型中的复杂性挑战,日前,佐治亚理工学院研究人员开发了 CNN 101,这是另一个交互式的可视化卷积神经网络系统,可以帮助深度学习、人工智能实验室的科研人员以及学生更好地了解和学习卷积神经网络,它是基础的深度学习模型体系结构。

交互式可视化卷积神经网络系统
CNN 101 :交互式可视化卷积神经网络系统

使用现代 Web 技术构建的 CNN 101 无需专用硬件即可在用户的 Web 浏览器中本地运行。通过紧密集成的交互式视图,CNN 101 通过解释单神经元级别以及层级别的卷积,激活和池化操作,提供了模型工作方式的概述和详细说明。CNN 101 进一步扩大了公众对深度学习技术的教育途径。它应用了交互式可视化技术,为用户提供了一种更简单的方法来学习深度学习机制并建立神经网络直觉。并且,对于现有的通过交互式可视化来解释复杂机器学习算法的研究工作,CNN 101 可以与他们结合在一起。

同时,作者为 CNN 101 录制了演示视频,为了方便观看,跨象乘云™ 提供了源视频下载 ——

Uber 开源 AI 模型可视化分析工具:Manifold

可解释人工智能分析,在新一代人工智能科研平台,以及人工智能实验室建设中,具有越来越重要的地位 —— 调试机器学习模型是最痛苦的,因为算法本身不透明,就算运行结果不好,有时你也很难知道问题出在哪里。了解 ML 模型的性能和行为是一个不容易的过程。性能摘要统计信息(输出的数据,比如 AUC、均方误差等等,对指导我们如何改进模型是远远不够的。最近,Uber 也推出了一款 ML 可视化调试工具Manifold(流形),可以帮助开发者发现让模型不能准确预测的数据子集,通过不同子集之间的特征分布差异来解释模型性能不佳的可能原因。

GitHub地址项目 GitHub 地址

Google 发布联邦学习漫画

2017 年,谷歌在官方博客中发文,提出了联邦学习(Federated Learning)。该技术实际上是一种加密的分布式机器学习技术,各个参与方可在不披露底层数据和其加密形态的前提下共建模型。

Federated Learning in Gboard on Android
Federated Learning in Gboard on Android

为了帮助大家更好地理解这个技术,贴心的谷歌还特意出版了一期漫画解析,网上已经有中文翻译版本。这里发布原始链接,供高校新一代人工智能科研实验室、专业教学等师生参考。

超越 ReLU 的激活函数:GeLU

NLP 领域里,GeLU 已经成为了众多业内最佳模型的选择。

作为决定神经网络是否传递信息的「开关」,激活函数对于神经网络而言至关重要。不过今天被人们普遍采用的 ReLU 真的是最高效的方法吗?最近在社交网络上,人们找到了一个看来更强大的激活函数:GeLU,这种方法早在 2016 年即被人提出,然而其论文迄今为止在 Google Scholar 上的被引用次数却只有 34 次。其实,GeLU 已经被很多目前最为领先的模型所采用。据不完全统计,BERT、RoBERTa、ALBERT 等目前业内顶尖的 NLP 模型都使用了这种激活函数。另外,在 OpenAI  声名远播的无监督预训练模型 GPT-2 中,研究人员在所有编码器模块中都使用了 GeLU 激活函数。

在神经网络的建模过程中,模型很重要的性质就是非线性,同时为了模型泛化能力,需要加入随机正则,例如 dropout(随机置一些输出为 0,其实也是一种变相的随机非线性激活),而随机正则与非线性激活是分开的两个事情, 而其实模型的输入是由非线性激活与随机正则两者共同决定的。

GeLU 正是在激活中引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识,同时实验效果要比 ReLU 与 ELU 都要好。

MNIST Classification Results
MNIST Classification Results

《美国在人工智能时代的行动蓝图》

12 月 17 日,新美国安全中心发布报告《美国人工智能世纪:行动蓝图》(The American AI Century: A Blueprint for Action),指出先进计算、量子科学、人工智能、合成生物学、5G、增材制造等技术的快速进步正在改变技术运行机制,其中人工智能将产生最广泛的影响。报告建议制定符合美国家利益和价值观的标准,并为确保美国在未来『人工智能世纪』的领先地位提供建议,以预测和应对安全挑战。

《中国新一代人工智能科技产业发展报告(2019)》

在第三届世界智能大会上,中国新一代人工智能发展战略研究院发布了 —— 《中国新一代人工智能科技产业发展报告(2019)》报告,客观真实地刻画了中国人工智能科技产业基本形态和内在结构,揭示了中国智能经济发展的内在动力机制和发展模式。

报告中指出,中国人工智能科技产业的兴起和发展内生于经济转型升级中所创造的智能化需求。2017 年 7 月以来,国家战略的前瞻引领、需求的强力牵引、产学研用的协同创新、创新生态系统的高度开放性和政府的积极响应,共同构成了中国人工智能科技产业发展的协同创新推动机制。随着核心产业部门和融合产业部门互动过程中报酬递增效应的出现,中国的智能经济即将迎来黄金发展时期。

研究报告是战略研究院专家在连续多年的系统调查研究的基础上完成的。数据库样本包括 745 家人工智能企业、94 所 AI 大学和 75 家非大学科研机构、1780 家投资者(投资机构、非投资机构和个人投资者)、823 场在中国境内召开的人工智能会议和 117 家产业联盟、31 个省市自治区出台的 259 项政策、规划建设的 163 家产业园区。报告的分析数据不仅包括样本的属性数据,而且包括关系数据。

截至 2019 年 2 月 28 日,本报告共检测到 745 家人工智能企业,仅次于排名第一的美国。中国的人工智能企业主要分布在北京市、广东省、上海市和浙江省。企业创建集中分布在 2010 年至 2016 年之间,峰值出现在 2015 年。

从人工智能企业的核心技术分布看,大数据和云计算占比最高,为 21.3%,其次是机器学习和推荐、语音识别和自然语言处理、人脸和步态及表情识别。同时,排在前列的还包括硬件、服务机器人、工业机器人和图形图像识别技术。

报告显示,中国是人工智能专利布局最多的国家。2018 年全球人工智能领域专利申请量达到 13 万余件。中国、美国、日本三国相关专利累计占比超过全球 80%。美国在基础层拥有专利控制力,技术层则呈现中美双寡头竞争格局,应用层中国专利占比领先。从专利布局的技术领域看,技术研发的热点领域为基础层的智能芯片和智能传感器、技术层的语音识别和机器视觉、应用层的智能驾驶。

此外,投融资方面,在 745 家人工智能企业中,发生融资事件的企业为 577 家,融资总额为 3832.22 亿元,是 2017 年的 2.04 倍,排名全球第一。

报告显示,中国智能经济创新生态系统的开放性和辐射带动作用明显。『平台+赋能+中小微和新创企业+开发者』成为中国智能经济发展的基本组织形态。

吴恩达新课上线:TensorFlow 移动和 Web 端机器学习

大家都很熟悉吴恩达了。他开设的 Coursera 机器学习课程可以说是很多初学者的「白月光」。近日,他创始的 deeplearning.ai 在 Coursera 上另外开设了一门课程 ——《TensorFlow: Data and Deployment Specialization》,主要介绍使用 Tensorflow.js、TensorFlow Lite、TensorFlow Hub 等工具进行数据分析的方法。该专项课程已于今日开放注册。吴恩达对课程进行了转推。

TensorFlow 是深度学习中最著名的框架之一,绝大多数人都已经掌握了基本的使用方法。如果要更上一层楼,选择本课程无疑是一个好方法。据介绍,这门课程可以帮助学习者了解很多应用场景,并发现训练模型中的高效方法。

该专项课程总共分为四个部分,主旨在于帮助学习者了解如何让机器学习模型从实验阶段走向实际应用。首先,你可以了解到在浏览器和移动设备中训练模型。同时,你可以学习如何仅用几行代码使用内置数据集、完成数据分割和处理各种非结构化数据的工作。最后,你还能了解很多应用场景,并了解 TensorFlow Serving、TensorFlow Hub、TensorBoard 等。

2019 年机器学习/ 深度学习热门论文(含代码)

1. 《Contrastive Representation Distillation》

本文在模型蒸馏领域中利用了一系列对比目标来捕获相关性和高阶输出依存关系。在本文中对它们进行了修改,以将知识从一个神经网络提取到另一个。

Contrastive Representation Distillation
Contrastive Representation Distillation

本文考虑了三个蒸馏阶段:

  • 模型压缩
  • 将知识从一种方式(例如:RGB)转移到另一种方式(例如:深度)
  • 将一组网络精简为一个网络

对比学习的主要思想是学习在某个度量空间中对于正例对的表示尽可能接近,同时对于负例对的表示尽可能远。

GitHub地址项目 GitHub 地址

2. 《Network Pruning via Transformable Architecture Search》

这是网络修剪领域的论文。它建议直接将神经体系结构搜索应用于具有灵活通道和层大小的网络。使修剪过的网络的损失最小化有助于学习信道数量。

Nueral Architecture Search (NAS)
Nueral Architecture Search (NAS)

修剪后的网络的特征图由 K 个特征图片段组成,这些片段基于概率分布进行采样。损失反向传播到网络权重和参数化分布。

本文提出的修剪方法分为三个阶段:

  • 使用标准分类训练程序训练未修剪的大型网络。
  • 通过可转换体系结构搜索(TAS)搜索小型网络的深度和宽度。TAS 旨在寻求最佳的网络规模。
  • 使用简单知识提炼(KD)方法将信息从未修剪的网络传输到搜索的小型网络。

GitHub地址项目 GitHub 地址

3. 《Learning Data Augmentation Strategies for Object Detection》

尽管这本身不是模型体系结构,但本文提出了可用于对象检测数据集的转换的创建方法,这些转换可以转移到其他对象检测数据集。转换通常在训练时应用。以下是使用学习到的策略进行训练的代码:

在此模型中,扩充策略定义为在训练过程中随机选择的一组 n 个策略。在此模型中已应用的一些操作包括:扭曲颜色通道,几何扭曲图像以及仅扭曲在边界框注释中找到的像素内容。

GitHub地址项目 GitHub 地址

4. 《XLNet: Generalized Autoregressive Pretraining for Language Understanding》

XLNet 是 Transformer 领域的一篇令人振奋的论文。XLNet 是一种通用的自回归预训练方法,通过最大化在所有因式分解阶数排列上的预期似然性,可以学习双向上下文。它不使用固定的正向或反向分解顺序。取而代之的是,它针对分解阶数的所有可能排列最大化序列的预期对数似然性。这些排列的结果是,每个位置的上下文都可以由左右两个标记组成。由于每个位置都学会了利用所有位置的上下文信息,因此捕获了双向上下文。

GitHub地址项目 GitHub 地址

5. 《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (ACL 2019)》

Transformer-XL(意味着超长)可用于学习超出固定长度的依赖性,而不会破坏时间相干性。它引入了段级递归机制和位置编码方案。TransformerXL 学习的依赖关系比 RNN 长 80%,比朴素 Transformers 长 450%。TensorFlowPyTorch 均可用。

作者将递归引入其深层的自注意力网络。他们重用了先前分段中获得的隐藏状态,而不是从头开始为每个新段计算隐藏状态。重用的隐藏状态充当循环段的内存。

这在段之间建立了循环连接。建模长期依赖关系成为可能,因为信息是通过循环连接传递的。作者还介绍了一种更有效的相对位置编码方式,该方式可以将注意力集中到比训练过程中观察到的注意长度更长的位置。

GitHub地址项目 GitHub 地址

6. 《Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos (AAAI 2019)》

本文涉及场景深度和机器人自我运动的无监督学习任务,其中监督由单目视频提供。这是通过将几何结构引入学习过程来完成的。它涉及对场景和单个对象,相机的自我运动以及从单眼视频输入中获悉的对象运动进行建模。作者还介绍了一种在线优化方法。

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

作者介绍了一种对象运动模型,该模型与自我运动网络共享相同的体系结构。但是,它专门用于预测 3D 中单个对象的运动。

它以 RGB 图像序列作为输入。预先计算的实例分段掩码对此进行了补充。运动模型的工作是学习预测 3D 空间中每个对象的变换矢量。这将在各个目标框中创建观察到的对象外观。

GitHub地址项目 GitHub 地址

7. 《Auto-Keras: An Efficient Neural Architecture Search System》

本文提出了一个框架,使贝叶斯优化能够为有效的 NAS 引导网络形态。基于他们的方法,作者构建了一个称为 Auto-Keras 的开源 AutoML 系统。

该方法的主要组成部分是在贝叶斯优化(BO)算法的指导下,通过变形神经网络结构来探索搜索空间。由于 NAS 空间不是欧几里德空间,因此作者通过设计神经网络核函数来解决这一难题。核函数是用于将一种神经体系结构变形为另一种神经体系结构的编辑距离。

GitHub地址项目 GitHub 地址

8. 《Depth-Aware Video Frame Interpolation (CVPR 2019)》

本文提出了一种视频帧插值方法,该方法通过探索深度信息来检测遮挡。作者开发了一个深度感知流投影层,该层可以合成对较近的对象进行采样的即时流,而不是对较远的对象进行采样。

DAIN (Depth-Aware Video Frame Interpolation)
DAIN (Depth-Aware Video Frame Interpolation)

层次特征的学习是通过从相邻像素收集上下文信息来完成的。然后通过基于光流和局部插值核对输入帧,深度图和上下文特征进行综合来生成输出帧。

作者提出了一种深度感知视频帧内插(DAIN)模型,该模型可有效利用光流,局部插值核,深度图和上下文特征来生成高质量的视频帧。

GitHub地址项目 GitHub 地址

9. 《OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》

OpenPose 是用于多人 2D 姿势估计的开源实时系统,包括身体,脚,手和面部关键点。本文提出了一种用于检测图像和视频中的 2D 人体姿势的实时方法。

OpenPose represents the first real-time multi-person system to jointly detect human body, hand, facial, and foot keypoints (in total 135 keypoints) on single images.
OpenPose represents the first real-time multi-person system to jointly detect human body, hand, facial, and foot keypoints (in total 135 keypoints) on single images.

本文提出的方法使用了一种称为Part Affinity Fields(PAF)的非参数表示。本文的一些作者来自 IEEE。此方法将图像作为 CNN 的输入,并预测用于检测身体部位的置信度图和用于部位关联的 PAF。本文还开源了带有 15K 人脚实例的带注释脚数据集

GitHub地址项目 GitHub 地址

10. 《FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation》

本文提出了一种称为联合金字塔上采样(JPU)的联合上采样模块,以取代消耗大量时间和内存的膨胀卷积。它通过将提取高分辨率图的过程公式化为联合上采样问题而起作用。

联合金字塔上采样(JPU)
联合金字塔上采样(JPU)

该方法以全连接网络(FCN)为骨干,同时应用 JPU 对低分辨率的最终特征图进行上采样,从而得到高分辨率的特征图。用 JPU 取代膨胀的卷积不会导致性能损失。

GitHub地址项目 GitHub 地址