在语音识别与自然语言处理实验室建设过程中,语音数据是非常重要的科研资源之一。同时,语音数据面临的最大挑战在于在录制语音的过程中,周边环境噪音带来的对数据质量的影响。正因如此,Speech-enhancement 语音增强项目旨在建立一个语音增强系统来衰减环境噪声。
为了创建用于训练的数据集,收集了来自不同来源的英语语音的干净声音和环境噪音 —— 干净的声音主要来自 LibriSpeech:基于公共领域有声读物的 ASR 语料库。另外,使用了SiSec 的一些数据 —— 由总共 100 首不同风格的全音轨歌曲组成,包括混合物和四个原始音源及音干。环境噪声是从 ESC-50 数据集(完整版 ESC 语音语料库)以及部分用于 Matlab 实验教学的数据集。在这个项目中,重点研究了10类环境噪声:时钟,脚步声,铃铛,手锯,警报,烟花,昆虫,刷牙,吸尘器和打鼾。
为了创建用于训练 / 验证 / 测试的数据集,音频以 8kHz 采样,并且在 1 秒以上的时间内略微提取了窗口。对环境噪声进行了一些数据扩充(在不同时间获取窗口会创建不同的噪声窗口)。噪声已经混合在一起,以随机化的噪声级别(介于 20% 和 80% 之间)来清除声音。最后,训练数据包括 10h 的嘈杂声和干净的声音,以及 1h 的声音验证数据。