GANSynth:使用 GAN 制作音乐

众所周知,GAN 是一种生成高质量图像的 SOTA 方法。因而,研究人员也一直在努力将其应用于更加序列化的数据,例如音频和音乐。在这个领域,自回归 (AR) 模型通过一次预测一个样本占据了主导地位(如 WaveNets 和 Transformers)。虽然 AR 模型的这一特性促成了它们的成功,但这也同时意味着采样是连续且缓慢,令人难以忍受的过程。为此,诸如概率密度蒸馏和专用内核等技巧被开发出来以满足实时语音合成的需要。

GANSynth 的特点并非在于顺序生成音频,而是并行生成整个序列。在现代 GPU 上合成音频的速度明显比实时要求的速度更快,比标准 WaveNet 快约 50,000[……]

继续阅读

NeuralHash:对抗性隐形签名水印

Neuralhash 是通过对图像进行微扰,以视觉方式编码作者的独特签名的一个开源项目框架。项目的安全水印方案代表了在保护内容所有权和防止 Internet 上的盗版方面的重大进步。项目主要做法,是可以在解码器网络(将输入图像映射到 32 位签名)上使用对抗性示例技术来生成将其解码为所需签名的扰动。

项目提出了一种在期望最大化(EM)框架下训练解码器网络的方法,以学习对攻击的威胁空间更具弹性的特征转换,交替使用网络对图像进行编码,然后更新网络的权重以使其对攻击更健壮。

GitHub地址项目 GitHub 地址[……]

继续阅读

GAN 图像转换

一、资源简介

来自 MIT 的 Phillip Isola 在 2019 CVPR 上分享的图像转换(Image translation)的关键知识点和算法分析,包括配对的转换(Paired translation)和非配对的转换(Unpaired translation)相关的算法,如 pix2pix,CycleGAN 等。

官网:https://phillipi.github.io/talks/im2im_tutorial_cvpr2019.pdf

作者介绍:Phillip Isola:麻省理工学院 EECS 的助理教授,研究计算机视觉、机器学习和人工智能。在 Ope[……]

继续阅读

计算机视觉各研究方向汇总

所谓计算机视觉,即 compute vision ,就是通过用计算机来模拟人的视觉工作原理,来获取和完成一系列图像信息处理的机器。计算机视觉属于机器学习在视觉领域的应用,是一个多学科交叉的研究领域,涉及数学,物理,生物,计算机工程等多个学科,由此也可以想象到计算机视觉的研究范围非常广,也是图像,语音,自然语言处理领域中从业人数最多的。

1. 图像分类

1.1 基本概念

图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务,从最开始比较简单的 10 分类的灰度图像手写数字识别 mnist ,到后来更大一点的 10 分类的 cifar10 和 100 分类的cifar[……]

继续阅读