最大规模并行语料库 – 45 亿语料,576 种语言

语料库是开发领域智能聊天机器人项目工程的核心资源 —— 当前自然语言处理NLP)中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。为了解决这一问题,在去年七月份,Facebook 曾发布了第一个系统处理 Wikipedia 上所有语言(包括资源贫乏的语言和方言)的数据集 WikiMatrix,大约包含了亿级的并行语料,覆盖 1,620 种语言对。

而最近,Facebook 基于新的方法和数据源,开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含 45 亿并行语料(是 WikiMatrix 的近 50 倍),覆盖 576 种语言对。

GitHub地址项目 GitHub 地址