来自 MIT 的 15.ai,提供在线免费的文本转语音应用。可以用它来生成各种字符的 44.1 kHz 声音。这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的『声情并茂』了。使用起来非常简单,主页中的『Source』提供了几部电影或动画,『Character』提供了里面的一些角色。只需要在文本框中输入不多于 140 字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。[……]
标签: ASR
语音增强项目:Speech-enhancement
在语音识别与自然语言处理实验室建设过程中,语音数据是非常重要的科研资源之一。同时,语音数据面临的最大挑战在于在录制语音的过程中,周边环境噪音带来的对数据质量的影响。正因如此,Speech-enhancement 语音增强项目旨在建立一个语音增强系统来衰减环境噪声。
为了创建用于训练的数据集,收集了来自不同来源的英语语音的干净声音和环境噪音 —— 干净的声音主要来自 LibriSpeech:基于公共领域有声读物的 ASR 语料库。另外,使用了SiSec 的一些数据 —— 由总共 100 首不同风格的全音轨歌曲组成,包括混合物和四个原始音源及音干。环境噪声是从 ESC-50 数据集(完整版[……]
2020 年人工智能开源生态圈
以深度学习为核心的新一代人工智能技术发展到今天,已逐步形成一个庞大的生态结构,覆盖了:经典机器学习、深度学习、强化学习、自然语言处理、语音识别、计算机视觉、分布式训练、自动建模、IDEs 系统、平台、评分推理系统等完整的细分领域 —— 正确合理的选择与开发内容相匹配的工具,常常会使科学研究工作事半功倍,同时,选择正确高效的工具也是技术应用类专业建设的重要环节。
跨象乘云™ 持续致力为高等院校打造深度学习与新一代人工智能科研教学一体化实验平台,在进一步将深度学习系统与容器化基础设施架构紧密集成的同时,对新一代人工智能开源生态系统提供全方位的支撑,加速高校科研效率及科研成果落地。详细项目列表[……]
自动语音识别包 wav2letter 升级
开源语音识别工具包:wav2letter
Facebook AI 研究院开源了端到端语音识别系统 wav2letter,一套简单高效的自动语音识别系统(ASR)。如果你想要立刻进行语音转录,项目还提供了在 Librispeech 数据集上预训练的模型。
项目GitHub地址[……]