NLP最新科研福利!MSRA开源学术界最全面语义分析数据集

微软亚洲研究院(MSRA),刚刚送出最新一批 AI 资源和福利。

在“中国高校人工智能人才国际培养计划” 2019 国际人工智能专家论坛暨 2019 微软新一代人工智能开放科研教育平台合作论坛,MSRA 面向高校提供最新的人工智能技术、工具、科研成果,以及数据集。

新增业界最全面的语义分析数据集

在新一代人工智能开放科研教育平台的合作框架下,微软开放了自身人工智能领域的数据集供合作高校在科研和教育工作上进行引用,如微软机器阅读理解(MS MARCO)、微软研究院社交媒体对话语料库、18K 数学文字题测试集 SigmaDolphin 等。

高校也通过平台贡献了各自在多个领域的数据集,如中国科学技术大学类脑实验室的海量类脑数据等。

2019 年,微软亚洲研究院正式发布自然语言处理(NLP)领域全新的语义分析数据集 MSParS (Multi-perspective Semantic ParSing Dataset)。

作为智能音箱、搜索引擎、自动问答和对话系统等人工智能产品中的核心技术,语义分析(Semantic Parsing)面临着因人工标注代价高昂而导致的数据缺乏问题,目前已有的语义分析数据集在数据规模和问题类型覆盖度上非常有限。

为此,微软亚洲研究院提出并构建了 MSParS,该数据集(1.0版本)包含 81,826 个自然语言问题及其对应的结构化语义表示,覆盖 12 种不同的问题类型和 2,071 个知识图谱谓词,是学术界目前最全面的语义分析数据集。未来,微软将与各高校一起开放、共享更多数据,促进产教融合合作生态的建设。

MSParS 数据集:

https://github.com/msra-nlc/MSParS