10 月19 日,Tencent AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据集包含 800 多万中文词汇。Tencent AI Lab 表示,相比现有的公开数据,该数据在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。
Tencent AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇,其中每个词对应一个 200 维的向量。相比现有的中文词向量数据,Tencent AI Lab 的中文词向量着重提升了以下 3 个方面:
- 覆盖率(Coverage):该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如『不念僧面念佛面』、『冰火两重天』、『煮酒论英雄』、『皇帝菜』、『喀拉喀什河』等。
- 新鲜度(Freshness):该数据包含一些最近一两年出现的新词,如『恋与制作人』、『三生三世十里桃花』、『打call”、『十动然拒』、『供给侧改革』、『因吹斯汀』等。
- 准确性(Accuracy):由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系。
