众所周知,GAN 是一种生成高质量图像的 SOTA 方法。因而,研究人员也一直在努力将其应用于更加序列化的数据,例如音频和音乐。在这个领域,自回归 (AR) 模型通过一次预测一个样本占据了主导地位(如 WaveNets 和 Transformers)。虽然 AR 模型的这一特性促成了它们的成功,但这也同时意味着采样是连续且缓慢,令人难以忍受的过程。为此,诸如概率密度蒸馏和专用内核等技巧被开发出来以满足实时语音合成的需要。
GANSynth 的特点并非在于顺序生成音频,而是并行生成整个序列。在现代 GPU 上合成音频的速度明显比实时要求的速度更快,比标准 WaveNet 快约 50,000 倍。我们先前发布的 NSynth 是基于 WaveNet 模型的自动编码器,使用时间分布潜码生成音乐。
GANSynth 与此不同,它使用单个潜向量生成整个音频剪辑,从而能够更轻松地解耦音高与音色等全局特征。使用 NSynth 乐器音符数据集,我们可以独立控制音高和音色。您可以在下面的样本中听到这一点,在该样本中,我们首先保持音色恒定,然后对整个演奏过程中的音色进行插值。