最火 NLP 项目发布 1,008 种机器翻译模型,涵盖 140 种语言组合

现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了。

没错,就是 Hugging Face (抱抱脸)标星 26.9 k 的 Transformer 项目。在最新更新的版本里,抱抱脸发布了 1,008 种模型,正式涉足机器翻译领域。模型涵盖 140 种不同语言组合,中文翻英文,英文译法语,法语翻阿拉伯语 …… 还能一对多翻译。据抱抱脸介绍,这1000+模型,是研究人员使用无监督学习和 OPUS 数据集训练的。OPUS 项目来自赫尔辛基大学及其全球合作伙伴,旨在收集和开源各种语言数据集,尤其是低资源(小语种)语言数据集。

GitHub地址项目 GitHub 地址[……]

继续阅读

上下文词向量与预训练语言模型:BERT 到 T5

BERT 的出现革新了众多自然语言处理任务中的模型架构范式,由此以 BERT 为代表预训练语言模型(PLM)在多项任务中刷新了榜单,引起了学术界和工业界的大量关注。斯坦福大学经典自然语言处理课程 2020 年 CS224N 邀请了 BERT 作者,Google 研究员 Jacob Devlin 做了关于上下文词表示 BERT 以及预训练语言模型的课程讲座,亲授大厂实战经验,值得关注。为此,跨象乘云™ 提供了对应的 PPT 下载。[……]

继续阅读

超轻量级中文 OCR

光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上的试题等。近期,这个叫做 chineseocr_lite 的 OCR 项目开源了,这是一个超轻量级中文 OCR 实现中文自然场景文字检测及识别。该项目支持竖排文字识别,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) + anglenet (1.5M) 总模型仅 17M。

GitHub地址项目 GitHub 地址[……]

继续阅读

fast.ai 面向 Pytorch 的深度学习新书开源

fast.ai 的创始人、前 Kaggle 首席科学家 Jeremy Howard 教授在 Github 上开源了和 Sylvain Gugger 合著的新书《Deep Learning for Coders with fastai and PyTorch》的初稿。全书草稿已公布 22 章,通过这份它你将学到:

  • 如何在计算机视觉、自然语言处理、推荐系统、表格和时间序列数据分析中创建最先进的模型
  • 如何使用全新的 fastai v2 库和 PyTorch
  • 深度学习的基础:什么是神经网络,它们是如何训练的,以及它们如何进行预测
  • 为什么以及如何使用深度学习模型,以及如何使用[……]

    继续阅读

MIT 在线文本转语音应用

来自 MIT 的 15.ai,提供在线免费的文本转语音应用。可以用它来生成各种字符的 44.1 kHz 声音。这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的『声情并茂』了。使用起来非常简单,主页中的『Source』提供了几部电影或动画,『Character』提供了里面的一些角色。只需要在文本框中输入不多于 140 字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。[……]

继续阅读

中文自然语言处理数据集搜索引擎

本项目,可能是目前最全的中文 NLP 数据集信息收集及搜索引擎。该项目收集了一百多条中文自然语言处理数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。

项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

GitHub地址项目 GitHub 地址[……]

继续阅读

NLP 最强模型 – BERT 源码解读

当前,Google 开源的 BERT 已成为公认的自然语言处理NLP)最佳模型。同时,在《自然语言处理》课程中,跨象乘云™ 设计了《BERT 语句情感分类》工程案例,让人工智能专业以及人工智能技术服务专业师生通过完整的项目实践,充分了解 NLP 技术相关的关键概念与先进的 BERT 模型的技术实现,以及复杂的自然语言处理流程。

近日,公众号《NewBeeNLP》发布了《BERT源码分析》(原创作者:高开远),对 BERT 整体模型,BERT 数据处理流程,以及预训练任务做了进一步详尽的分析。供各位师生参考。[……]

继续阅读

2020 年人工智能开源生态圈

深度学习为核心的新一代人工智能技术发展到今天,已逐步形成一个庞大的生态结构,覆盖了:经典机器学习深度学习强化学习自然语言处理语音识别计算机视觉、分布式训练、自动建模、IDEs 系统、平台、评分推理系统等完整的细分领域 —— 正确合理的选择与开发内容相匹配的工具,常常会使科学研究工作事半功倍,同时,选择正确高效的工具也是技术应用类专业建设的重要环节。

跨象乘云™ 持续致力为高等院校打造深度学习与新一代人工智能科研教学一体化实验平台,在进一步将深度学习系统与容器化基础设施架构紧密集成的同时,对新一代人工智能开源生态系统提供全方位的支撑,加速高校科研效率及科研成果落地。详细项目列表[……]

继续阅读

最大规模并行语料库 – 45 亿语料,576 种语言

语料库是开发领域智能聊天机器人项目工程的核心资源 —— 当前自然语言处理NLP)中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。为了解决这一问题,在去年七月份,Facebook 曾发布了第一个系统处理 Wikipedia 上所有语言(包括资源贫乏的语言和方言)的数据集 WikiMatrix,大约包含了亿级的并行语料,覆盖 1,620 种语言对。

而最近,Facebook 基于新的方法和数据源,开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这[……]

继续阅读