Google 最新 NLP 模型开源

2020 年,注定是 NLP 技术爆发的一年。

近日,Google 又推出了 Transformer 的『升级版』 —— ReformerTransformer 可谓是近年自然语言处理领域关注度颇高的模型之一。

  • 2017 年,Google 发表题为『Attention Is All You Need』的论文,提出了完全基于注意力机制(Attention Mechanism)的网络框架 Transformer
  • 2018 年,Google 开源了基于 Transformer 的 BERT 模型,在 NLP 领域大火。
  • 2019 年,机器学习领域最大的趋势之一,便是基于 Transformer 的自然语言模型的持续增长和扩散。
  • 2020 年,根据自然语言处理领域数据集 GLUE(General Language Understanding Evaluation)的排行榜,一些表现最佳的模型 —— 包括:Nvidia 的 Megatron、Google 的 XLNet、微软的 MT-DNN 和 Facebook 的 Roberta,都基于 Transformer。

对人工智能和机器学习模型来说,不管是语言、音乐、语音还是视频,序列数据都不好理解 —— 尤其是在广泛的环境中。例如,如果一个人或一个物体从视频中消失很久后才重新出现,许多算法就会忘记它的样子。

因此,Google 开发了机器翻译模型 Transformer,希望解决这一问题。Transformer 是一个扩展到数千个单词的架构,极大地提升了在完成作曲、图像合成、逐句文本翻译和文档摘要等任务时的性能。

与所有深度神经网络一样,Transformer 包含连接层中的神经元(数学函数),可传输来自输入数据的信号,并缓慢调整每个连接的突触强度(权重),这是所有人工智能模型提取特征和学习预测的方式,但是 Transformer 能独特地注意到每个输出元素都与每个输入元素相关联,它们之间的权重实际上是动态计算的。

不过,Transformer 并不是完美的——将其扩展到更大的环境中就能明显看出局限性。大窗口应用程序的内存从千兆字节到兆兆字节不等,也就是说模型只能吸收几段文本或生成一小段音乐。

基于此,Google 推出 Reformer 作为 Transformer 的演进,Reformer 能够处理多达 100 万字的环境,仅用 16GB 的存储器就能在单个 AI 加速器芯片上运行。