自动语音识别包 wav2letter 升级

生物识别技术,包括:指纹,虹膜,人脸,静脉以及声纹等,利用人体固有的生理特性(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。另一方面 —— 机器要听懂人类说话,就离不开语音识别技术(ASR)。因此,语音识别成为计算机识别技术以外应用最为广泛的新一代人工智能技术 ——

  • 苹果的用户肯定都体验过 Siri ,就是典型的语音识别;
  • 微信里有一个功能是『文字语音转文字』,也利用了语音识别;
  • 最近流行的智能音箱就是以语音识别为核心的产品;
  • 比较新款的汽车基本都有语音控制的功能,这也是语音识别;

自动语音识别(ASR)涉及自动将录制的语音转录为文本的模型、算法和系统。这是一个很难解决的问题,因为录制的语音可能变化很大——我们不一定是说话者是谁,录制语音的地方,或者信号中是否有其他声源(如噪音或竞争性说话者)。解决语音识别问题需要对机器学习、信号处理和声学语音学有所了解。此前,跨象乘云™ 介绍了 Facebook AI 研究院开源的端到端语音识别系统 wav2letter,一套简单高效的自动语音识别系统(ASR)。

日前,Facebook 发布了新一代在线自动语音识别系统 —— wav2letter@anywhere,wav2letter@anywhere 是由 wav2letterwav2letter++ 这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统。自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++ 存储库在 GitHub 上提供的 API 支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线 ASR 所需的规模。

GitHub地址项目 GitHub 地址