开源教程 「NLP-Tutorial」

这个项目并不复杂,但却包含了基本的嵌入式表征模型、CNN、RNN、注意力模型、Transformer 等的 13 个重要模型的核心代码实现。整体而言,基本所有代码都是作者自己完成的,当然都会借鉴已有的实现。很多模型都同时有 TensorFlow 和 PyTorch 两种版本,但像 Transformer 和 BERT 等拥有谷歌官方实现的模型,作者只提供了 PyTorch 实现。据作者介绍,随后他计划将添加 Keras 版本的实现。

引入瞩目的是,这个项目中几乎所有模型的代码实现长度都在 100 行左右(除了注释和空行外),很多预处理、模型持久化和可视化等操作都被简化或删除了。因此精简后[……]

继续阅读

最火 NLP 项目发布 1,008 种机器翻译模型,涵盖 140 种语言组合

现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了。

没错,就是 Hugging Face (抱抱脸)标星 26.9 k 的 Transformer 项目。在最新更新的版本里,抱抱脸发布了 1,008 种模型,正式涉足机器翻译领域。模型涵盖 140 种不同语言组合,中文翻英文,英文译法语,法语翻阿拉伯语 …… 还能一对多翻译。据抱抱脸介绍,这1000+模型,是研究人员使用无监督学习和 OPUS 数据集训练的。OPUS 项目来自赫尔辛基大学及其全球合作伙伴,旨在收集和开源各种语言数据集,尤其是低资源(小语种)语言数据集。

GitHub地址项目 GitHub 地址[……]

继续阅读

上下文词向量与预训练语言模型:BERT 到 T5

BERT 的出现革新了众多自然语言处理任务中的模型架构范式,由此以 BERT 为代表预训练语言模型(PLM)在多项任务中刷新了榜单,引起了学术界和工业界的大量关注。斯坦福大学经典自然语言处理课程 2020 年 CS224N 邀请了 BERT 作者,Google 研究员 Jacob Devlin 做了关于上下文词表示 BERT 以及预训练语言模型的课程讲座,亲授大厂实战经验,值得关注。为此,跨象乘云™ 提供了对应的 PPT 下载。[……]

继续阅读

超轻量级中文 OCR

光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上的试题等。近期,这个叫做 chineseocr_lite 的 OCR 项目开源了,这是一个超轻量级中文 OCR 实现中文自然场景文字检测及识别。该项目支持竖排文字识别,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) + anglenet (1.5M) 总模型仅 17M。

GitHub地址项目 GitHub 地址[……]

继续阅读

fast.ai 面向 Pytorch 的深度学习新书开源

fast.ai 的创始人、前 Kaggle 首席科学家 Jeremy Howard 教授在 Github 上开源了和 Sylvain Gugger 合著的新书《Deep Learning for Coders with fastai and PyTorch》的初稿。全书草稿已公布 22 章,通过这份它你将学到:

  • 如何在计算机视觉、自然语言处理、推荐系统、表格和时间序列数据分析中创建最先进的模型
  • 如何使用全新的 fastai v2 库和 PyTorch
  • 深度学习的基础:什么是神经网络,它们是如何训练的,以及它们如何进行预测
  • 为什么以及如何使用深度学习模型,以及如何使用[……]

    继续阅读

MIT 在线文本转语音应用

来自 MIT 的 15.ai,提供在线免费的文本转语音应用。可以用它来生成各种字符的 44.1 kHz 声音。这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的『声情并茂』了。使用起来非常简单,主页中的『Source』提供了几部电影或动画,『Character』提供了里面的一些角色。只需要在文本框中输入不多于 140 字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。[……]

继续阅读

中文自然语言处理数据集搜索引擎

本项目,可能是目前最全的中文 NLP 数据集信息收集及搜索引擎。该项目收集了一百多条中文自然语言处理数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。

项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

GitHub地址项目 GitHub 地址[……]

继续阅读

NLP 最强模型 – BERT 源码解读

当前,Google 开源的 BERT 已成为公认的自然语言处理NLP)最佳模型。同时,在《自然语言处理》课程中,跨象乘云™ 设计了《BERT 语句情感分类》工程案例,让人工智能专业以及人工智能技术服务专业师生通过完整的项目实践,充分了解 NLP 技术相关的关键概念与先进的 BERT 模型的技术实现,以及复杂的自然语言处理流程。

近日,公众号《NewBeeNLP》发布了《BERT源码分析》(原创作者:高开远),对 BERT 整体模型,BERT 数据处理流程,以及预训练任务做了进一步详尽的分析。供各位师生参考。[……]

继续阅读