MIT 在线文本转语音应用

来自 MIT 的 15.ai,提供在线免费的文本转语音应用。可以用它来生成各种字符的 44.1 kHz 声音。这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的『声情并茂』了。使用起来非常简单,主页中的[……]

继续阅读

语音增强项目:Speech-enhancement

在语音识别与自然语言处理实验室建设过程中,语音数据是非常重要的科研资源之一。同时,语音数据面临的最大挑战在于在录制语音的过程中,周边环境噪音带来的对数据质量的影响。正因如此,Speech-enhancement 语音增强项目旨在建立一个语音增强系统来衰减环境噪声。

为了创建用于训练的数据集,收[……]

继续阅读

2020 年人工智能开源生态圈

深度学习为核心的新一代人工智能技术发展到今天,已逐步形成一个庞大的生态结构,覆盖了:经典机器学习深度学习强化学习自然语言处理语音识别计算机视觉、分布式训练、自动建模、IDEs 系统、平台、评分推理系统等完整的细分领域 —— 正确合理的选择与开发内容相匹配的工具,常常会使科学研究工作事半功[……]

继续阅读

自动语音识别包 wav2letter 升级

生物识别技术,包括:指纹,虹膜,人脸,静脉以及声纹等,利用人体固有的生理特性(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。另一方面 —— 机器要听懂人类说话,就离不开语音识别技术(ASR)。因此,语音识别成为计算机识别技术以外应用最为广泛的新一代人工智能技术 ——[……]

继续阅读