Google 再发布改进自然语言理解模型的新数据集

此前,《Google 发布两个全新的自然语言对话数据集》,然而,词序和语法结构对句意有很大影响,换而言之细微的词序调整也可能会完全改变句意。请思考以下例句:

  • Flights from New York to Florida. – 从纽约飞往佛罗里达的航班。
  • Flights to Florida from New York. – 从纽约飞往佛罗里达的航班。
  • Flights from Florida to New York. – 从佛罗里达飞往纽约的航班。

和第 3 句的意思截然不同,称为 非释义对 (Non-Paraphrase Pairs)。识别对应语句对是否为释义对的任务称为释义识别 (Paraphrase Identification),对自然语言理解 (Natural Language Understanding, NLU) 的实际应用(如问答系统)至关重要。

可能有些出乎意料,但如果仅在现有的数据集上训练,即使是 BERT 等最高水准 (SOTA) 模型也无法正确识别许多非释义对之间的差异(如上文中的第 1 句和第 3 句)。这是由于现有的数据集缺乏针对这种情况的训练数据。因此,即使能够理解复杂的上下文句式的机器学习模型,也很难理解此类任务。

为解决这一问题,Google 发布两个新数据集以帮助社区进行相关研究:

  • PAWS (Paraphrase Adversaries from Word Scrambling) 英文数据集;
  • PAWS-X 数据集,基于 PAWS 数据集并扩展为六种不同语言:法语、西班牙语、德语、中文、日语和朝鲜语。

两个数据集均包含结构完整、单词重叠度较高的句对,其中约有一半是释义对,而另一半是非释义对。通过在 SOTA 模型的训练数据中加入新数据,我们将算法的精确度从低于 50% 提升至 85-90%。

德语 (DE) 和中文 (ZH) 的人工翻译句对示例
德语 (DE) 和中文 (ZH) 的人工翻译句对示例

与之前相比,即便使用新的训练示例,无法获得非本地上下文信息的模型同样会训练失败。因此,新数据集也成为了测量模型对词序和单词结构敏感度的实用工具。

PAWS 数据集包含 108,463 个由人工标记的英文句对,这些数据来源于 Quora Question Pairs (QQP) 和维基百科。PAWS-X 包含 23,659 个由人工翻译的 PAWS 评估句对 (Evaluation Pairs) 和 296,406 个机器翻译的训练句对。下表列出了两个数据集的详细统计数据。

PAWS-X 的训练集是 PAWS Wiki 英文数据集中某个子集的机器翻译
PAWS-X 的训练集是 PAWS Wiki 英文数据集中某个子集的机器翻译

GitHub地址项目 GitHub 地址