这个仓库中收集了从 2013 年到现在关于 QA 的数据集,每个数据集作者都给出了相应的介绍和下载地址。
项目 GitHub 地址[……]
这个仓库里包括有医疗 NLP 领域(主要关注中文) 评测数据集 与 论文等相关资源。包括 ——
项目 GitHub 地址[……]
这个项目并不复杂,但却包含了基本的嵌入式表征模型、CNN、RNN、注意力模型、Transformer 等的 13 个重要模型的核心代码实现。整体而言,基本所有代码都是作者自己完成的,当然都会借鉴已有的实现。很多模型都同时有 TensorFlow 和 PyTorch 两种版本,但像 Transformer 和 BERT 等拥有谷歌官方实现的模型,作者只提供了 PyTorch 实现。据作者介绍,随后他计划将添加 Keras 版本的实现。
引入瞩目的是,这个项目中几乎所有模型的代码实现长度都在 100 行左右(除了注释和空行外),很多预处理、模型持久化和可视化等操作都被简化或删除了。因此精简后[……]
现在,你可以用 GitHub 上最火的 NLP 项目做机器翻译了。
没错,就是 Hugging Face (抱抱脸)标星 26.9 k 的 Transformer 项目。在最新更新的版本里,抱抱脸发布了 1,008 种模型,正式涉足机器翻译领域。模型涵盖 140 种不同语言组合,中文翻英文,英文译法语,法语翻阿拉伯语 …… 还能一对多翻译。据抱抱脸介绍,这1000+模型,是研究人员使用无监督学习和 OPUS 数据集训练的。OPUS 项目来自赫尔辛基大学及其全球合作伙伴,旨在收集和开源各种语言数据集,尤其是低资源(小语种)语言数据集。
项目 GitHub 地址[……]
光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上的试题等。近期,这个叫做 chineseocr_lite 的 OCR 项目开源了,这是一个超轻量级中文 OCR 实现中文自然场景文字检测及识别。该项目支持竖排文字识别,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) + anglenet (1.5M) 总模型仅 17M。
项目 GitHub 地址[……]
fast.ai 的创始人、前 Kaggle 首席科学家 Jeremy Howard 教授在 Github 上开源了和 Sylvain Gugger 合著的新书《Deep Learning for Coders with fastai and PyTorch》的初稿。全书草稿已公布 22 章,通过这份它你将学到:
本项目,可能是目前最全的中文 NLP 数据集信息收集及搜索引擎。该项目收集了一百多条中文自然语言处理数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。
项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。
项目 GitHub 地址[……]