MIT 在线文本转语音应用

来自 MIT 的 15.ai,提供在线免费的文本转语音应用。可以用它来生成各种字符的 44.1 kHz 声音。这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的『声情并茂』了。使用起来非常简单,主页中的『Source』提供了几部电影或动画,『Character』提供了里面的一些角色。只需要在文本框中输入不多于 140 字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。[……]

继续阅读

语音增强项目:Speech-enhancement

在语音识别与自然语言处理实验室建设过程中,语音数据是非常重要的科研资源之一。同时,语音数据面临的最大挑战在于在录制语音的过程中,周边环境噪音带来的对数据质量的影响。正因如此,Speech-enhancement 语音增强项目旨在建立一个语音增强系统来衰减环境噪声。

为了创建用于训练的数据集,收集了来自不同来源的英语语音的干净声音和环境噪音 —— 干净的声音主要来自 LibriSpeech:基于公共领域有声读物的 ASR 语料库。另外,使用了SiSec 的一些数据 —— 由总共 100 首不同风格的全音轨歌曲组成,包括混合物和四个原始音源及音干。环境噪声是从 ESC-50 数据集(完整版[……]

继续阅读

2020 年人工智能开源生态圈

深度学习为核心的新一代人工智能技术发展到今天,已逐步形成一个庞大的生态结构,覆盖了:经典机器学习深度学习强化学习自然语言处理语音识别计算机视觉、分布式训练、自动建模、IDEs 系统、平台、评分推理系统等完整的细分领域 —— 正确合理的选择与开发内容相匹配的工具,常常会使科学研究工作事半功倍,同时,选择正确高效的工具也是技术应用类专业建设的重要环节。

跨象乘云™ 持续致力为高等院校打造深度学习与新一代人工智能科研教学一体化实验平台,在进一步将深度学习系统与容器化基础设施架构紧密集成的同时,对新一代人工智能开源生态系统提供全方位的支撑,加速高校科研效率及科研成果落地。详细项目列表[……]

继续阅读

自动语音识别包 wav2letter 升级

生物识别技术,包括:指纹,虹膜,人脸,静脉以及声纹等,利用人体固有的生理特性(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。另一方面 —— 机器要听懂人类说话,就离不开语音识别技术(ASR)。因此,语音识别成为计算机识别技术以外应用最为广泛的新一代人工智能技术 ——

  • 苹果的用户肯定都体验过 Siri ,就是典型的语音识别;
  • 微信里有一个功能是『文字语音转文字』,也利用了语音识别;
  • 最近流行的智能音箱就是以语音识别为核心的产品;
  • 比较新款的汽车基本都有语音控制的功能,这也是语音识别;

自动语音识别(ASR)涉及自动将录制的语音转录[……]

继续阅读