2020 年人工智能开源生态圈

深度学习为核心的新一代人工智能技术发展到今天,已逐步形成一个庞大的生态结构,覆盖了:经典机器学习深度学习强化学习自然语言处理语音识别计算机视觉、分布式训练、自动建模、IDEs 系统、平台、评分推理系统等完整的细分领域 —— 正确合理的选择与开发内容相匹配的工具,常常会使科学研究工作事半功倍,同时,选择正确高效的工具也是技术应用类专业建设的重要环节。

跨象乘云™ 持续致力为高等院校打造深度学习与新一代人工智能科研教学一体化实验平台,在进一步将深度学习系统与容器化基础设施架构紧密集成的同时,对新一代人工智能开源生态系统提供全方位的支撑,加速高校科研效率及科研成果落地。详细项目列表[……]

继续阅读

最大规模并行语料库 – 45 亿语料,576 种语言

语料库是开发领域智能聊天机器人项目工程的核心资源 —— 当前自然语言处理NLP)中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。为了解决这一问题,在去年七月份,Facebook 曾发布了第一个系统处理 Wikipedia 上所有语言(包括资源贫乏的语言和方言)的数据集 WikiMatrix,大约包含了亿级的并行语料,覆盖 1,620 种语言对。

而最近,Facebook 基于新的方法和数据源,开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这[……]

继续阅读

最先进的 NLP 模型库:PyTorch-Transformers

自然语言处理NLP)的力量令人叹服。NLP 改变了文本的处理方式,几乎到了无法用语言描述的程度。在最先进的一系列 NLP 库中,PyTorch-Transformers 出现最晚,却已打破各种 NLP 任务中已有的一切基准。它最吸引人的地方在于涵盖了 PyTorch 实现、预训练模型权重及其他重要元素,可以帮助用户快速入门。运行最先进的模型需要庞大的计算能力。PyTorch-Transformers 在很大程度上解决了这个问题,它能够帮助这类人群建立起最先进的 NLP 模型。包括 ——

  • BERT (from Google):深层双向 Transformers 语言理解的预训练模型
  • [……]

    继续阅读

Google 开放领域聊天机器人 Meena

开放领域聊天机器人是人工智能研究的一个重要领域。近日谷歌一篇博客介绍了团队在该领域的最新研究进展 —— Meena 机器人

现在的对话智能体(即聊天机器人)都是非常专业化的,如果用户不偏离场景太远的话,这些机器人的表现还是很不错的。但是,要想让聊天机器人能够完成更广泛话题下的对话任务,发展开放领域聊天机器人就显得很重要了。

开放领域聊天机器人不会仅限于在某个特定领域,而是能够和用户聊近乎所有的话题。这一研究不仅具有学术价值,还可以激发很多有趣的应用,如更深层次的人机交互、提升外语训练的效果,或用于制作交互式电影和游戏角色。

但是,现在的开放领域聊天机器人有一个严重的缺陷 —[……]

继续阅读

Google 最新 NLP 模型开源

2020 年,注定是 NLP 技术爆发的一年。

近日,Google 又推出了 Transformer 的『升级版』 —— ReformerTransformer 可谓是近年自然语言处理领域关注度颇高的模型之一。

  • 2017 年,Google 发表题为『Attention Is All You Need』的论文,提出了完全基于注意力机制(Attention Mechanism)的网络框架 Transformer
  • 2018 年,Google 开源了基于 Transformer 的 BERT 模型,在 NLP 领域大火。
  • 2019 年,机器学习领域最大的趋势之一,便是基[……]

    继续阅读

hugging face 发布词语切分工具:Tokenizers

专注 NLP 的初创团队抱抱脸(hugging face)发布帮助自然语言处理过程中,更快的词语切分(tokenization)工具:Tokenizers —— 只要 20 秒就能编码 1GB 文本。

  • 功能多样:适用于 BPE / byte-level-BPE / WordPiece / SentencePiece 各种 NLP 处理模型
  • 可以完成所有的预处理:截断(Truncate)、填补(Pad)、添加模型需要的特殊标记。
  • 速度超级快:只需要 20 秒就可以在 CPU 上标记 1GB 的文本。
  • 目前适用三种编程语言:Rust / Python / Node.js[……]

    继续阅读

北大全新开源中文分词工具包

2020 年,自然语言处理NLP)科研方向被赋予了极大的期待。

最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32%。pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。pkuseg 具有如下几个特点:

  • 多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点[……]

    继续阅读

《机器学习实用指南》第二版发布

Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》(《机器学习实用指南》),这本书最大的特色从理论上讲就是言简意赅,全书基本上没有太多复杂的数学公式推导。这一点正是国内很多高校教材所欠缺的。这本超赞的机器学习实用指南终于正式出版了第二版:《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems 2nd Edit[……]

继续阅读

超越 ReLU 的激活函数:GeLU

NLP 领域里,GeLU 已经成为了众多业内最佳模型的选择。

作为决定神经网络是否传递信息的「开关」,激活函数对于神经网络而言至关重要。不过今天被人们普遍采用的 ReLU 真的是最高效的方法吗?最近在社交网络上,人们找到了一个看来更强大的激活函数:GeLU,这种方法早在 2016 年即被人提出,然而其论文迄今为止在 Google Scholar 上的被引用次数却只有 34 次。其实,GeLU 已经被很多目前最为领先的模型所采用。据不完全统计,BERT、RoBERTa、ALBERT 等目前业内顶尖的 NLP 模型都使用了这种激活函数。另外,在 OpenAI  声名远播的无监督预训练模型[……]

继续阅读

Google 再发布改进自然语言理解模型的新数据集

此前,《Google 发布两个全新的自然语言对话数据集》,然而,词序和语法结构对句意有很大影响,换而言之细微的词序调整也可能会完全改变句意。请思考以下例句:

  • Flights from New York to Florida. – 从纽约飞往佛罗里达的航班。
  • Flights to Florida from New York. – 从纽约飞往佛罗里达的航班。
  • Flights from Florida to New York. – 从佛罗里达飞往纽约的航班。

和第 3 句的意思截然不同,称为 非释义对 (Non-Paraphrase Pairs)。识别对应语句对是否为释义[……]

继续阅读