中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在 2019 年初这个时点上 —— 普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。笔者想要训练一个中文的词向量,在百度和 Github 上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。
为此,徐亮创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。包括 ——
- 维基百科(wiki2019zh),100万个结构良好的中文词条;
- 新闻语料(news2016zh),250万篇新闻,含关键词、描述;
- 百科问答(baike2018qa),150万个带问题类型的问答;
- 社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型;
- 翻译语料(translation2019zh),520万个中英文句子对;