非官方 GPT-3 开源

Eleuther AI 推出的名为 GPT-Neo 的开源项目,开源了复现版 GPT-3 的模型参数( 1.3B 和 2.7B 级别),并将其更新在 Colab notebook 之上。需要指出的是这次开源的模型里较大的那个版本也只是到了 GPT-3 商用版里最小模型的参数量,不过 Eleuther AI 表示未来会进一步开源 10B 版本和原始大小版本的 GPT3 模型参数。

但关于复现模型的性能,目前只说『实验表现与原版 GPT-3 相当』。风靡一时的拥有 1,750 亿超大参数量,一出道便被视作 NLP 领域最强 AI 模型的 GPT-3,得益于其庞大的参数量,使得 GPT-3 拥[……]

继续阅读

开源教程 「NLP-Tutorial」

这个项目并不复杂,但却包含了基本的嵌入式表征模型、CNN、RNN、注意力模型、Transformer 等的 13 个重要模型的核心代码实现。整体而言,基本所有代码都是作者自己完成的,当然都会借鉴已有的实现。很多模型都同时有 TensorFlow 和 PyTorch 两种版本,但像 Transformer 和 BERT 等拥有谷歌官方实现的模型,作者只提供了 PyTorch 实现。据作者介绍,随后他计划将添加 Keras 版本的实现。

引入瞩目的是,这个项目中几乎所有模型的代码实现长度都在 100 行左右(除了注释和空行外),很多预处理、模型持久化和可视化等操作都被简化或删除了。因此精简后[……]

继续阅读

最火 NLP 项目发布 1,008 种机器翻译模型,涵盖 140 种语言组合

现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了。

没错,就是 Hugging Face (抱抱脸)标星 26.9 k 的 Transformer 项目。在最新更新的版本里,抱抱脸发布了 1,008 种模型,正式涉足机器翻译领域。模型涵盖 140 种不同语言组合,中文翻英文,英文译法语,法语翻阿拉伯语 …… 还能一对多翻译。据抱抱脸介绍,这1000+模型,是研究人员使用无监督学习和 OPUS 数据集训练的。OPUS 项目来自赫尔辛基大学及其全球合作伙伴,旨在收集和开源各种语言数据集,尤其是低资源(小语种)语言数据集。

GitHub地址项目 GitHub 地址[……]

继续阅读

上下文词向量与预训练语言模型:BERT 到 T5

BERT 的出现革新了众多自然语言处理任务中的模型架构范式,由此以 BERT 为代表预训练语言模型(PLM)在多项任务中刷新了榜单,引起了学术界和工业界的大量关注。斯坦福大学经典自然语言处理课程 2020 年 CS224N 邀请了 BERT 作者,Google 研究员 Jacob Devlin 做了关于上下文词表示 BERT 以及预训练语言模型的课程讲座,亲授大厂实战经验,值得关注。为此,跨象乘云™ 提供了对应的 PPT 下载。[……]

继续阅读

超轻量级中文 OCR

光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上的试题等。近期,这个叫做 chineseocr_lite 的 OCR 项目开源了,这是一个超轻量级中文 OCR 实现中文自然场景文字检测及识别。该项目支持竖排文字识别,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) + anglenet (1.5M) 总模型仅 17M。

GitHub地址项目 GitHub 地址[……]

继续阅读

fast.ai 面向 Pytorch 的深度学习新书开源

fast.ai 的创始人、前 Kaggle 首席科学家 Jeremy Howard 教授在 Github 上开源了和 Sylvain Gugger 合著的新书《Deep Learning for Coders with fastai and PyTorch》的初稿。全书草稿已公布 22 章,通过这份它你将学到:

  • 如何在计算机视觉、自然语言处理、推荐系统、表格和时间序列数据分析中创建最先进的模型
  • 如何使用全新的 fastai v2 库和 PyTorch
  • 深度学习的基础:什么是神经网络,它们是如何训练的,以及它们如何进行预测
  • 为什么以及如何使用深度学习模型,以及如何使用[……]

    继续阅读

MIT 在线文本转语音应用

来自 MIT 的 15.ai,提供在线免费的文本转语音应用。可以用它来生成各种字符的 44.1 kHz 声音。这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的『声情并茂』了。使用起来非常简单,主页中的『Source』提供了几部电影或动画,『Character』提供了里面的一些角色。只需要在文本框中输入不多于 140 字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。[……]

继续阅读