亚马逊发布机器学习课程视频及配套实验

继谷歌、微软、Deepmind后,亚马逊在近日也宣布,把自家培训软件工程师和数据科学家的机器学习课程免费开放。这家庞大的互联网巨头非常重视自身员工的培训,本次公开内容包括 30 多个数字 ML 课程,总计时长超过 45 小时,。马逊同时推出认证选择,学习者可以通过测试考试后,可以拿到证书,辅助其获得业界的认可。

亚马逊还很贴心的将课程分类,为四类人士量身定做了职业发展路径,分别迎合开发人员,数据科学家,数据平台工程师和业务人士的需要。

开源中文书《动手学深度学习》上线

MXNet 创始人李沐、Aston Zhang 等人所著的交互式书籍《动手学深度学习》推出了在线预览版,面向在校学生、工程师和研究人员,旨在帮助读者从入门到深入、动手学习深度学习,即使是零基础的读者也完全适用。与吴恩达的课程侧重于 TensorFlow 不一样,这本书是亚马逊 MXNet 零基础深度学习课程的重要组成部分,为此,亚马逊团队开发了 MXNet 的新前端 Gluon,课程内容推荐使用 Gluon 进行开发。李沐表示,开设这门课程的初衷,是看到了目前刚开始接触机器学习的学习者没有很完善的参考资料的现状,这门课程可以帮助他们从深度学习入门到最新最前沿的算法,从 0 开始通过交互式的代码来讲解每个算法和概念。PDF 预览版下载。

GitHub地址项目 GitHub 地址

德勤发布《中国教育发展报告2018》

进入教育新时代,新行业发展为产业带来多方机遇,加上中国经济的高速发展和国际化的不断加深,中国家庭对教育的需求和支出也逐步提高,更加注重将中外教育理念和教育方式有机结合,国际化教育市场热度持续上升,新技术应用也迅速渗透教育行业。根据德勤最新发布的调研报告《教育新时代:中国教育发展报告 2018 》显示,随着中国人口结构调整和国内市场的消费升级,教育消费占中国家庭消费支出的比重越来越大,中国教育市场也保持着良好的态势。此外,随着大数据、人工智能、立体化等技术的完善发展,教育行业长期存在的资源分配不均等问题将有望得到改善。与此同时,报告亦分析道,资本市场对民办教育持续看好,大量资本涌入,在商业环境变化、行业转型发展、以及市场竞争越趋激烈的背景下,企业在人才管理和运营管理各方面均面临更高的要求和挑战,如何将新技术更好地应用于教育行业从而实现高效赋能,也成为一个不可忽视的问题。

德勤预计,2018 年中国教育市场规模将达到人民币 2.68 万亿元,民办教育的总体规模将于 2020 年高达 3.36 亿元,并于 2025 年升至近 5 万亿元,实现 10.8% 的年均复合增长率。经历了四十几年的发展,国际学校在中国逐渐形成了独具特色的差异化道路,民办国际学校的数目将从 2017 年的 367 所增长到 2020 年的 600 所以上。从整体市场来说,国际学校未来仍有很大的增量空间,主要来自向二三线城市的不断渗透。随着教育与消费升级的需求,整体国际学校的市场规模将在 2020 年达到 436 亿元。留学需求旺盛、教育消费升级、升学竞争激烈和素质教育加强四位一体,促成国际学校需求持续旺盛。

再者,中国教育行业一直是资本市场的宠儿,数据显示,自 2014 年起,风投/私募基金对教育市场频频投资,投资总额和数量均不断攀升。截至 2018 年 6 月,已发起的教育行业投资案例共 137 起,投资总额达 25.7 亿美元,STEAM 教育、职业教育和早教市场分别占据了投资热点的前三位,占比分别为 30%、14% 和 12%。

德勤中国教育行业主管合伙人卢莹表示认为:『面对教育新时代,未来教育市场机遇与挑战并存。在国家政策和资本的支持与推动下,教育产业发展加速,中国教育市场正在孕育着新的趋势,国际教育、科技应用、人才管理和运营管理将成为教育行业新的发展机遇。加上资本和商业元素进入教育市场,教育机构应当在提升自身核心竞争力,重新梳理新时代下的运营管理挑战,适应数字化转型趋势,保证高质量教育的基础上,兼顾市场发展,积极开拓市场,深化精细管理。』

德勤 2018年《中国人工智能产业白皮书》PDF

日前,德勤发布专业评估报告《中国人工智能产业白皮书》,该报告对人工智能在中国发展情况及在商业领域的应用作出深度解析。

中国人工智能产业发展迅速,科技巨头博弈激烈

报告指出,中国人工智能产业蓬勃发展,已成为人工智能发展极为迅速的国家之一。人工智能在中国高速发展的驱动力主要来自计算力的显著提升、多方位的政策支持、大规模多频次的投资以及逐渐清晰的用户需求。同时,科技巨头生态链博弈正在展开,初创企业则积极发力垂直行业解决方案,深耕巨头的数据洼地,打造护城河。科技巨头构建生态链,已经在基础设施和技术方面占据优势。

人工智能在各领域应用场景发展差异明显,制造业潜力仍被低估

德勤通过对金融、汽车、医疗、零售、政务及制造等行业的调查中发现,人工智能在几大应用场景的发展特色鲜明。其中,人工智能在金融领域的应用最为深入,在应用场景方面也逐步由以交易安全为主,向变革金融经营全过程扩展;就汽车行业行业,无人驾驶和共享汽车等新兴概念的出现,将引发整个产业链的革新;医疗行业人工智能应用发展快速,新技术的出现将帮助行业解决医疗资源短缺和分配不均等众多民生问题;在零售行业,人工智能应用多点开花,呈现出由个别应用到整合应用的局面;政府端仍是目前智慧政务和公共安全应用场景的主要渠道,实力企业优势也逐渐显现。值得注意的是,在制造业领域,人工智能目前尚未充分施展拳脚,应用潜力仍待开发。

京沪深领跑全国,粤杭发展逐步加速

就地理位置而言,由于人才与技术资源的绝对优势,北京、上海、深圳牢牢占据人工智能城市实力第一梯队的位置。而杭州、广州地区则依靠阿里巴巴、科大讯飞等当地巨头企业处于第二梯队。目前杭州通过出台专项政策、搭建校企合作平台、举办高端会议等方式整合产业发展要素,取得了一定的发展成果,形成以阿里巴巴为核心,众多初创企业与人工智能平台集聚的格局。下一步,应该针对现有政策不足,继续优化人工智能产业格局。

《中国人工智能产业白皮书》PDF 下载

吴恩达深度学习教程中文笔记

8 月 8 日,吴恩达在他自己创办的在线教育平台 Coursera 上线了他的人工智能专项课程(Deep Learning Specialization)。此课程广受好评,通过视频讲解、作业与测验等让更多的人对人工智能有了了解与启蒙,国外媒体报道称:吴恩达这次深度学习课程是迄今为止,最全面、系统和容易获取的深度学习课程,堪称普通人的人工智能第一课。这些课程专为已有一定基础(基本的编程知识,熟悉 Python、对机器学习有基本了解),想要尝试进入人工智能领域的计算机专业人士准备。介绍显示:“深度学习是科技业最热门的技能之一,本课程将帮你掌握深度学习。”

在这 5 堂课中,学生将可以学习到深度学习的基础,学会构建神经网络,并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。Deep Learning Specialization 对卷积神经网络 (CNN)、递归神经网络 (RNN)、长短期记忆 (LSTM) 等深度学习常用的网络结构、工具和知识都有涉及。

课程中也会有很多实操项目,帮助学生更好地应用自己学到的深度学习技术,解决真实世界问题。这些项目将涵盖医疗、自动驾驶、和自然语言处理等时髦领域,以及音乐生成等等。Coursera 上有一些特定方向和知识的资料,但一直没有比较全面、深入浅出的深度学习课程——《深度学习专业》的推出补上了这一空缺。

课程的语言是 Python,使用的框架是 Google 开源的 TensorFlow。最吸引人之处在于,课程导师就是吴恩达本人,两名助教均来自斯坦福计算机系。完成课程所需时间根据不同的学习进度,大约需要3-4个月左右。学生结课后,Coursera 将授予他们 Deep Learning Specialization 结业证书。

“我们将帮助你掌握深度学习,理解如何应用深度学习,在人工智能业界开启你的职业生涯。”

吴恩达在课程页面中提到。

GitHub地址项目 GitHub 地址

中文 NLP 词库

最近,在 GitHub 上,有人收罗了一份资源,汇集了 40 个关于中文 NLP 词库,涵盖了各个方面。中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌 & 零件词库、时间抽取、连续英文切割、中文词向量大全、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

在应用这些语料库同时,你或者还需要 pyHanLPJieBa 等中文分词组件支持。

GitHub地址项目 GitHub 地址

编程与统计学入门数据科学项目

教师用来进行教学使用,帮助学生有机会使用与其课程相关的数据集,并指导学生进行数据分析以及帮助理解统计和计算机原理。

语音和音韵学概论

这个模块由两个实验组成,实验所用到的数据都是学生自己收集的,并且在这个模块中,学生独立分析数据并编码。在第一个实验室里,学生们研究声音开始以及结束的时间,以及母语口语和身高之间的相关性。在第二个实验中,学生分析元音发音,并将研究个体相互比较,从而揭示单个元数据对特征预测能力的影响。该模块适用于没有编码或统计经验的学生。

邻里映射

本模块让学生分析并可视化整个东湾人口普查区的社会经济和人口变化情况。学生们到社区进行定性观察,然后与人口普查数据进行比较。把一些的观察结果组合成一幅地图。该模块适用于没有编码或统计经验的学生。

宏观经济学

这个模块包含一些宏观经济学问题集。 第一个 notebook 帮助学生使用 Latex 公式以及教他们如何插图。 第一个 notebook 的建模部分可视化了索洛增长模型。该模块还使用自动评分功能可以及时反馈学生提交的作业。同样,该模块也适用于没有编码或统计经验的学生。

唐人街与排斥文化

使用 20 世纪 – 21 世纪的人口统计数据,让学生分析一个特定的唐人街随着时间的推移是如何变化的。在实验过程中,学生可以使用一些简单的文本分析方法做相关研究。

隐性偏见和社会结果

本模块向学生介绍相关和回归分析。学生从一个关于健康结果的数据集和一组关于内隐偏见的数据集中挑选出整个美国的县级数据集。然后,他们将这两个数据集合并,并计算相关性和进行回归预测,从而确定偏见与健康结果之间是否存在相关性。

道德基础理论

这些模块将政治演讲中的词汇使用与道德基础理论联系起来。这些数据的统计推断和可视化帮助学生寻找保守派和自由派总统候选人之间的修辞差异。然后,学生们将数据驱动的方法作为修辞工具进行研究和批判。

苏美尔文本分析

本模块使用一个有趣的数据集,即苏美尔文学电子文本语料库(ETCSL)。这些文本是从六千年前的资料中翻译出来的。在本模块中使用的技术在文本分析中不太常见,如k均值、分层聚类和多维缩放。

数据,预测和法律

利用 2016 年美国总统竞选演讲的数据,学生从语音文本中挖掘特征,可视化这些特征,并用主成分分析提取特征。该模块最后给出了一个三维特征图的例子,此模块需要学生有一些统计学知识。

Google 开源 Open Images V4 数据集

Open Images 是谷歌开源的一个大型数据集,包含大约 900 万张图像,这些图像用图像级别的标签和目标边界框进行了标注。最近,谷歌发布了该数据集的第四个版本 —— Open Images V4,图像数量增加到 920 万,其训练集包含 1,460 万个边界框,用于标识从属于 600 个目标类别的 174 万张图像中的目标,这使它成为了现有的含有目标位置标注的最大数据集。这些边界框大部分由专业的标注人员手工绘制,以确保准确性和一致性。数据集中的图像非常多样化,通常包含存在多个目标的复杂场景(平均每张图像 8.4 个)。此外,数据集用逾数千个类别的图像级标签进行标注。数据集被分成了训练集(9,011,219 张图像)、验证集(41,620 张图像)和测试集(125,436 张图像)三部分。

Google Open Images Dataset V4
Google Open Images Dataset V4

数据集下载地址

Spark 2.4 重磅发布

Spark 2.4 重磅发布:优化深度学习框架集成,提供更灵活的流式接收器。Apache Spark 2.4.0 是 2.x 系列中的第五个版本。此版本增加了屏障执行模式,以便更好地与深度学习框架集成;引入 30 多个更高阶的内置函数,能够更轻松地处理复杂数据类型;优化 K8s 集成,同时提供 Scala 2.12 实验性支持。其他主要更新还包括内置 Avro 数据源、图像数据源,更加灵活的流式接收器,取消传输过程中 2GB 块大小的限制,Pandas UDF 改进。此外,此版本继续关注可用性、稳定性,并解决了大约 1,100 个 tickets。

NLP 科研编程指南

最近 AllenNLPEMNLP 2018 上做了一个主题分享,名为「NLP 科研编程指南」(Writing Code for NLP Research)。该演讲从写原型和写模块两方面介绍了 NLP 研究该如何复制别人的代码、测试自己的代码块、记录及分享研究等,总之在研究者也要高效码代码的年代,这是一份浓缩的实践经验。

这份内容干货满满,仅仅只是看了 PPT 就知道是非常有意思的一次演讲了。PPT 共有 254 页之多,在「赤乐君」知乎专栏分享。深度学习与新一代人工智能科研人员可以直接下载 PPT 了解详细内容,其中每一页 PPT 都带有简要的备注,根据这些备注可以将所有 PPT 以及整场演讲串联起来。

OpenAI 重磅发布深度强化学习资源

在项目主页中,OpenAI 提供了非常完整的使用教程,包括 Spinning Up 的详细介绍、各种环境下的安装方法、收录的算法,以及实验实现的教程等。除此之外,OpenAI 也提供了丰厚的学习资料,包括:强化学习的入门基础、结合 Spinning Up 学习 RL 的课程、论文推荐、实验练习和基准结果参考等。给人的第一印象就是,要想在深度强化学习上从 Zero 到 Hero,天天逛这个网站就够了。

平行语料库数据集

与大部分机器学习模型一样,有效的机器翻译系统需要大量的训练数据才能产生可读性强的结果。平行文本翻译语料库是两种语言之间的结构化翻译文本集。此类平行语料库对训练机器翻译算法至关重要。但从哪里可以获得这些外语数据集呢?

机器之心整理了一份完整的名单:《囊括欧亚非大陆多种语言的 25 个平行语料库数据集

Apache Flink 技术

本文节选自 9 月 1 日在成都举行的 Apache Flink China Meetup,分享来自于云邪。

Flink 是一款分布式的计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果;也可以用来做一些基于事件的应用,比如说滴滴通过 Flink CEP 实现实时监测用户及司机的行为流来判断用户或司机的行为是否正当。

总而言之,Flink 是一个 Stateful Computations Over Streams,即数据流上的有状态的计算。这里面有两个关键字,一个是 Streams,Flink 认为有界数据集是无界数据流的一种特例,所以说有界数据集也是一种数据流,事件流也是一种数据流。Everything is streams,即 Flink 可以用来处理任何的数据,可以支持批处理、流处理、AI、MachineLearning 等等。

另外一个关键词是 Stateful,即有状态计算。有状态计算是最近几年来越来越被用户需求的一个功能。举例说明状态的含义,比如说一个网站一天内访问 UV 数,那么这个 UV 数便为状态。Flink 提供了内置的对状态的一致性的处理,即如果任务发生了 Failover,其状态不会丢失、不会被多算少算,同时提供了非常高的性能。

那 Flink 的受欢迎离不开它身上还有很多的标签,其中包括性能优秀(尤其在流计算领域)、高可扩展性、支持容错,是一种纯内存式的一个计算引擎,做了内存管理方面的大量优化,另外也支持 eventime的处理、支持超大状态的 Job(在阿里巴巴中作业的 state大小超过TB的是非常常见的)、支持 exactly-once 的处理。

Flink 基石

Flink 之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。

首先是 Checkpoint 机制,这是 Flink 最重要的一个特性。Flink 基于 Chandy-Lamport 算法实现了一个分布式的一致性的快照,从而提供了一致性的语义。Chandy-Lamport 算法实际上在 1985 年的时候已经被提出来,但并没有被很广泛的应用,而 Flink 则把这个算法发扬光大了。Spark 最近在实现 Continue streaming,Continue streaming 的目的是为了降低它处理的延时,其也需要提供这种一致性的语义,最终采用 Chandy-Lamport 这个算法,说明 Chandy-Lamport 算法在业界得到了一定的肯定。

提供了一致性的语义之后,Flink 为了让用户在编程时能够更轻松、更容易地去管理状态,还提供了一套非常简单明了的 State API,包括里面的有 ValueState、ListState、MapState,近期添加了 BroadcastState,使用 State API 能够自动享受到这种一致性的语义。

除此之外,Flink 还实现了 Watermark 的机制,能够支持基于事件的时间的处理,或者说基于系统时间的处理,能够容忍数据的延时、容忍数据的迟到、容忍乱序的数据。

另外流计算中一般在对流数据进行操作之前都会先进行开窗,即基于一个什么样的窗口上做这个计算。Flink 提供了开箱即用的各种窗口,比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自定义的窗口。

Flink API

最底层是 ProcessFunction,它能够提供非常灵活的功能,它能够访问各种各样的 State,用来注册一些 timer,利用 timer 回调的机制能够实现一些基于事件驱动的一些应用。

之上是 DataStream API,最上层是 SQL/Table API 的一种 High-level API。

Flink 的用途

Flink 能用来做什么?回顾一下 Flink up 前几站的分享,有非常多的嘉宾分享了他们在自己公司里面基于 Flink 做的一些实践,包括携程、唯品会、饿了么、滴滴、头条等等。他们的应用场景包括实时的机器学习,实时的统计分析,实时的异常监测等等。这些实践案例的共同点就是都用来做实时性的任务。

Flink Title 的变化

早期 Flink 是这样介绍自己的:『我是一个开源的流批统一的计算引擎』,当时跟 Spark 有点类似。后来Spark 改成了一长串的文字,里面有各种各样的形容词:『我是一个分布式的、高性能的、高可用的、高精确的流计算系统』。最近 Spark 又进行了修改:『我是一个数据流上的有状态的计算』。

通过观察这个变化,可以发现 Flink 社区重心的变迁,即社区现在主要精力是放在打造它的流计算引擎上。先在流计算领域扎根,领先其他对手几年,然后借助社区的力量壮大社区,再借助社区的力量扩展它的生态。

Google 开源全面超越人类的最强 NLP 预训练模型:BERT

近日,谷歌 AI 的一篇 NLP 论文引起了社区极大的关注与讨论,被认为是 NLP 领域的极大突破。谷歌大脑研究科学家 Thang Luong Twitter 表示,这项研究开启了 NLP 领域的新时代。该论文介绍了一种新的语言表征模型 BERT —— 来自 Transformer 的双向编码器表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型,其性能超越许多使用任务特定架构的系统,刷新了 11 项 NLP 任务的当前最优性能记录。

刚刚,谷歌正式将其开源!这意味着所有 NLP 从业者都可以试用这个强大的 NLP 预训练模型并结合到自己的工作中。

GitHub地址项目 GitHub 地址