TensorFlow 2.0 实现高水准的自然语言处理

Hugging Face 是一家专注于 NLP 的创业公司,拥有大型开源社区,在 Transformer 库方面表现尤为出色,包括 Bing、Apple 和 Monzo 在内的千余家企业均在使用该公司的库。Transformer 是基于 Python 的库,对外提供诸多热门转换器架构(例如 BERT、RoBERTa、GPT-2 或 DistilBERT)的 API。使用该API 可获得文本分类、信息提取、问题回答与文本生成等多种 NLP 任务的最高水准(SOTA)结果。我们已用多套权重对上述架构进行预训练。仅需安装 PIP 软件包管理工具,即可开始使用 Transformer。此库在 PyTorch 中发展迅猛,最近我们已将其移植到 TensorFlow 2.0 中,该库现可提供能与 Keras’ fit API、TensorFlow Extended 和 TPU 搭配使用的 API ?。本文将专门介绍采用 TensorFlow 的 Transformer 库的用途:使用 Keras API 及 TensorFlow TPUStrategy 对先进的 Transformer 模型进行微调。本教程所用的所有示例均可在 Colab 中查看。您可通过每个部分的链接进入相应的详情页面。

同时,跨象乘云™ 也开发了《BERT 语句情感分类》项目案例,基于业内最先进的自然语言处理模型:BERT。基于 IMDB 电影评论的点评文本,实现语句分类与情感分析,覆盖自然语言处理操作的必要步骤与高级特性,包括 —— BERT 模型架构,NLP 迁移学习,句型情感分类,NLP 模型训练,Word2vec,distilBERT 模型,scikit-learn 机器学习库等,并提供图文生动的技术讲解与代码演示。每个技术点均提供独立的执行脚本,源代码,测试用数据以及分解实验指导,让学生充分了解 NLP 技术相关的关键概念与先进的 BERT 模型的技术实现,以及复杂的自然语言处理流程。

GitHub地址项目 GitHub 地址