最火 NLP 项目发布 1,008 种机器翻译模型,涵盖 140 种语言组合

现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了。

没错,就是 Hugging Face (抱抱脸)标星 26.9 k 的 Transformer 项目。在最新更新的版本里,抱抱脸发布了 1,008 种模型,正式涉足机器翻译领域。模型涵盖 140 种不同语言组合,中文翻英文,英[……]

继续阅读

上下文词向量与预训练语言模型:BERT 到 T5

BERT 的出现革新了众多自然语言处理任务中的模型架构范式,由此以 BERT 为代表预训练语言模型(PLM)在多项任务中刷新了榜单,引起了学术界和工业界的大量关注。斯坦福大学经典自然语言处理课程 2020 年 CS224N 邀请了 BERT 作者,Google 研究员 Jacob Devlin 做了[……]

继续阅读

超轻量级中文 OCR

光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上的试题等。近期,这个叫做 chineseocr_lite 的 OCR 项目开源了,这是一个超轻量级中文 OCR 实现中文自然场景文字检测及识别。该项目支持竖排文字识别,支持 ncnn 推理,psen[……]

继续阅读

MIT 在线文本转语音应用

来自 MIT 的 15.ai,提供在线免费的文本转语音应用。可以用它来生成各种字符的 44.1 kHz 声音。这些声音是使用多种音频合成算法和定制的深层神经网络实时生成的。最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的『声情并茂』了。使用起来非常简单,主页中的[……]

继续阅读

中文自然语言处理数据集搜索引擎

本项目,可能是目前最全的中文 NLP 数据集信息收集及搜索引擎。该项目收集了一百多条中文自然语言处理数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。

项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机[……]

继续阅读

NLP 最强模型 – BERT 源码解读

当前,Google 开源的 BERT 已成为公认的自然语言处理NLP)最佳模型。同时,在《自然语言处理》课程中,跨象乘云™ 设计了《BERT 语句情感分类》工程案例,让人工智能专业以及人工智能技术服务专业师生通过完整的项目实践,充分了解 NLP 技术相关的关键概念与先进的 BERT 模型的技术实现[……]

继续阅读

2020 年人工智能开源生态圈

深度学习为核心的新一代人工智能技术发展到今天,已逐步形成一个庞大的生态结构,覆盖了:经典机器学习深度学习强化学习自然语言处理语音识别计算机视觉、分布式训练、自动建模、IDEs 系统、平台、评分推理系统等完整的细分领域 —— 正确合理的选择与开发内容相匹配的工具,常常会使科学研究工作事半功[……]

继续阅读

最大规模并行语料库 – 45 亿语料,576 种语言

语料库是开发领域智能聊天机器人项目工程的核心资源 —— 当前自然语言处理NLP)中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。为了解决这一问题,在去年七月份,Face[……]

继续阅读