众所周知,GAN 是一种生成高质量图像的 SOTA 方法。因而,研究人员也一直在努力将其应用于更加序列化的数据,例如音频和音乐。在这个领域,自回归 (AR) 模型通过一次预测一个样本占据了主导地位(如 WaveNets 和 Transformers)。虽然 AR 模型的这一特性促成了它们的成功,但这也同时意味着采样是连续且缓慢,令人难以忍受的过程。为此,诸如概率密度蒸馏和专用内核等技巧被开发出来以满足实时语音合成的需要。
GANSynth 的特点并非在于顺序生成音频,而是并行生成整个序列。在现代 GPU 上合成音频的速度明显比实时要求的速度更快,比标准 WaveNet 快约 50,000[……]