神经网络结构可视化工具

对于我们算法分析人员来说,机器学习和神经网络早已不是什么新鲜内容,搭建、训练出来一个好的模型用于线上生产是必不可少的基础功能,对于业务人员或者是对于模型细节并不是很清楚或者是关注的人来说,这个就显得很抽象了,这个时候必要的可视化工作就显得很重要了,当前比较成熟的可视化工具大致包括:matplotlib、seaborn、Chaco 、pychart 、VPython 、yellowbrick等,这些是比较主流使用比较多的模块,但是对于模型结构的可是话来说显得就比较鸡肋了,这里迫切需要一些专业领域内的工具来帮助我们完成这些工作。

CNN
CNN
CNN
CNN

上面的这些图片都是可以一键生成的,顿时觉得功能很强大的。

GitHub地址项目 GitHub 地址

LaTeX 快速入门教程(附 PDF 下载)

一、书籍简介

LaTeX  是一个文档准备系统(Document Preparing System),它非常适用于生成高印刷质量的科技类和数学类文档。它也能够生成所有其他种类的文档,小到简单的信件,大到完整的书籍。LaTeX 使用 TeX 作为它的排版引擎。 这份短小的手册描述了 LaTeX2e 的使用,对 LaTeX 的大多数应用来说应该是足够了。参考文献对 LaTeX 系统提供了完整的描述。

二、主要内容目录

  • 第一章:讲述 LaTeX 的来源,源代码的基本结构,以及如何编译源代码生成文档。
  • 第二章:讲述在 LaTeX 中如何书写文字,包括中文。
  • 第三章:讲述文档排版的基本元素——标题、目录、列表、图片、表格等等。结合前一章的内容,你应当能够制作内容较为丰富的文档了。
  • 第四章:LaTeX 排版公式的能力是众人皆知的。本章的内容涉及了一些排版公式经常用到的命令、环境和符号。章节末尾提供了 LaTeX 常见的数学符号。
  • 第五章:介绍了如何修改文档的一些基本样式,包括字体、段落、页面尺寸、页眉页脚等。
  • 第六章:介绍了 LaTeX 的一些扩展功能:排版参考文献、排版索引、排版带有颜色和超链接的电子文档。
  • 第七章:介绍了如何在 LaTeX 里使用 TikZ 绘图。作为入门手册,这一部分点到为止。
  • 第八章:当你相当熟悉前面几章的内容,需要自己编写命令和宏包扩展 LaTeX 的功能时,本章介绍了一些基本的命令满足你的需求。

三、资源分享

同时为了方便大家,我们把最新 LaTeX 快速入门教程 (PDF)打包好了,可以直接下载。

LaTeX 代码数学神器

这是一个帮你快速把数学公式图片转成 LaTeX 代码的工具,名为 Snip,可以免费下载使用。操作非常简单!下载工具之后,只需要一个快捷键,把数学公式截图下来,它就能给你LaTeX代码,你也可以直接在任务栏中修改代码,然后复制、粘贴,写出自己的公式。而且,这一工具不仅仅适用于用电脑打出来的公式,你自己手写的公式,也可以识别出来。

Convert images to LaTeX
Convert images to LaTeX

更好的是,这个工具适用于 Mac、Windows、Ubuntu 系统,适用于所有支持 LaTeX 的编辑器。

 

德勤发布《中国教育发展报告2018》

进入教育新时代,新行业发展为产业带来多方机遇,加上中国经济的高速发展和国际化的不断加深,中国家庭对教育的需求和支出也逐步提高,更加注重将中外教育理念和教育方式有机结合,国际化教育市场热度持续上升,新技术应用也迅速渗透教育行业。根据德勤最新发布的调研报告《教育新时代:中国教育发展报告 2018 》显示,随着中国人口结构调整和国内市场的消费升级,教育消费占中国家庭消费支出的比重越来越大,中国教育市场也保持着良好的态势。此外,随着大数据、人工智能、立体化等技术的完善发展,教育行业长期存在的资源分配不均等问题将有望得到改善。与此同时,报告亦分析道,资本市场对民办教育持续看好,大量资本涌入,在商业环境变化、行业转型发展、以及市场竞争越趋激烈的背景下,企业在人才管理和运营管理各方面均面临更高的要求和挑战,如何将新技术更好地应用于教育行业从而实现高效赋能,也成为一个不可忽视的问题。

德勤预计,2018 年中国教育市场规模将达到人民币 2.68 万亿元,民办教育的总体规模将于 2020 年高达 3.36 亿元,并于 2025 年升至近 5 万亿元,实现 10.8% 的年均复合增长率。经历了四十几年的发展,国际学校在中国逐渐形成了独具特色的差异化道路,民办国际学校的数目将从 2017 年的 367 所增长到 2020 年的 600 所以上。从整体市场来说,国际学校未来仍有很大的增量空间,主要来自向二三线城市的不断渗透。随着教育与消费升级的需求,整体国际学校的市场规模将在 2020 年达到 436 亿元。留学需求旺盛、教育消费升级、升学竞争激烈和素质教育加强四位一体,促成国际学校需求持续旺盛。

再者,中国教育行业一直是资本市场的宠儿,数据显示,自 2014 年起,风投/私募基金对教育市场频频投资,投资总额和数量均不断攀升。截至 2018 年 6 月,已发起的教育行业投资案例共 137 起,投资总额达 25.7 亿美元,STEAM 教育、职业教育和早教市场分别占据了投资热点的前三位,占比分别为 30%、14% 和 12%。

德勤中国教育行业主管合伙人卢莹表示认为:『面对教育新时代,未来教育市场机遇与挑战并存。在国家政策和资本的支持与推动下,教育产业发展加速,中国教育市场正在孕育着新的趋势,国际教育、科技应用、人才管理和运营管理将成为教育行业新的发展机遇。加上资本和商业元素进入教育市场,教育机构应当在提升自身核心竞争力,重新梳理新时代下的运营管理挑战,适应数字化转型趋势,保证高质量教育的基础上,兼顾市场发展,积极开拓市场,深化精细管理。』

Python 知识卡片:Bokeh

继续之前的:

对于 Bokeh,应该与其他 Python 可视化库(如 Matplotlib 或 Seaborn)区别开来,因为它是一个交互式可视化库,非常适合希望快速轻松地创建交互式图表,仪表板和数据应用程序的任何人。Bokeh 也因在现代 Web 浏览器中实现大型数据集的高性能视觉呈现而闻名。

对于数据科学家来说,Bokeh 是快速轻松构建统计图表的理想工具。但也有其他优点,例如各种输出选项以及可将应用程序嵌入可视化的事实。我们不要忘记,各种各样的可视化定制选项使得这个 Python 库成为您数据科学工具箱不可或缺的工具。

现在,DataCamp 为那些已经参加课程并且仍然需要方便的单页参考或需要额外推动才能开始的人创建了知识卡片。简而言之,你会发现这张备忘单不仅向你展示了你可以制作美丽情节的五个步骤,还将向你介绍统计图表的基础知识。这款 Bokeh 备忘单很快就会让您熟悉如何准备数据,创建新图,使用自定义可视化为数据添加渲染器,输出图并保存或显示。而基本统计图表的创建将不再为您保留任何秘密。借助 Bokeh 提升您的Python数据可视化效果!Python 交互式数据可视化库 Bokeh 知识卡片 PDF 下载。

Python 知识卡片:数据导入

继续之前的:

在做任何数据清理,争论,可视化 … 之前,您需要知道如何将数据导入 Python。有很多方法可以将数据导入 Python,具体取决于您正在处理的文件。然而,你最经常使用 PandasNumPy 库:熊猫库是数据科学家进行数据操作和分析的首选工具之一,旁边是用于数据可视化的 matplotlib 和 NumPy,它是基础库 Python 中的科学计算 Pandas 的建立。在 Python 导入表中导入数据时,您会发现一些 NumPy 和 Pandas 函数以及 Python 编程语言中构建的函数,这些函数将帮助您快速获取 Python 中的数据!Python 数据导入知识卡片 PDF 下载。

Python 知识卡片:Scikit-Learn

继续之前的:

大多数使用 Python 学习数据科学的科研工作人员与学生,肯定会听说 scikit-learn,这是一个开源的Python 库,它通过统一的界面实现了各种机器学习,预处理,交叉验证和可视化算法。如果你对这个领域还很陌生,你应该意识到机器学习以及 Python 库是属于每个有抱负的数据科学家必须知道的。

此前,跨象乘云™ 曾经介绍了完整的 scikit-learn 算法工程导图,这次 DataCamp 为您已经开始学习 Python 包的人创建了 scikit-learn 知识卡片,但仍需要一个方便的参考表。或者,如果您仍然不了解 scikit-learn 的 工作原理,这本机器学习知识卡片可能会派上用场,以便快速了解您需要知道的基本入门知识。无论哪种方式,当您解决机器学习问题时,我们确信您会发现它很有用!这个 scikit-learn 知识卡片将向您介绍您需要经过的基本步骤,以成功实现机器学习算法:您将看到如何加载数据,如何对其进行预处理,如何创建自己的模型您可以调整数据并预测目标标签,如何验证模型以及如何进一步调整以提高其性能。Python scikit-learn 库知识卡片 PDF 下载。

Python 知识卡片:Matplotlib

继续之前的:

使用数据进行数据可视化和讲故事是每个数据科学家需要将从分析中获得的深刻见解有效传达给任何观众的基本技能。对于大多数初学者来说,他们用来接触数据可视化和讲故事的第一个包本来就是 Matplotlib:它是一个 Python 2D 绘图库,可以让用户制作出版质量的图。但是,更令人信服的是,其他软件包(例如 Pandas )打算随着时间的推移与 Matplotlib 进行更多的绘图集成。然而,可能会减慢初学者的事实是,这个软件包相当广泛。你可以用它做很多事情,当你学习如何使用 Matplotlib 时,可能很难保持一个结构。DataCamp 为那些可能已经知道如何使用这个软件包来创建优秀的 Python 图表的人创建了一个 Matplotlib 知识卡片,但是仍然希望保持一页参考的方便。当然,对于那些不知道如何使用 Matplotlib 的人来说,这可能需要额外的推动才能确信,并最终开始使用 Python 进行数据可视化。Python Matplotlib 库小抄表 PDF 下载。

Python 知识卡片:NumPy

继续之前的:

作为数据科学的基本包之一,NumPy 是你必须能够使用并确认你是否需要使用 Python 进行数据科学工程实践的软件包之一。它提供了 Python 列表的一个很好的选择,因为 NumPy 数组更紧凑,允许更快地读取和写入项目,并且更方便,更高效。此外,NumPy 也是其他重要软件包的基础,用于数据操作和机器学习,您可能已经知道,即 PandasScikit-LearnSciPy

  • Pandas 数据操作库建立在 NumPy 上,但它不是使用数组,而是使用另外两个基本的数据结构:Series和 DataFrame;
  • SciPy 构建于 Numpy 之上,提供大量可在 NumPy 阵列上运行的函数;
  • 机器学习库:Scikit-Learn 不仅可以构建 NumPy,还可以构建 SciPy 和 Matplotlib。

你会发现,NumPy 这个 Python 库是一个必须知道的事情:如果你知道如何使用它,你还将更好地理解你将毫无疑问使用的其他 Python 数据科学工具。这张由 Datacamp 制作的小抄表覆盖了 NumPy 包的基础知识,Python NumPy 库小抄表 PDF 下载

新一代人工智能顶会论文攻略

在人工智能领域,会议论文是证明研究人员学术水平的重要一环。是否存在一些「技巧」可以提高论文被大会接收的几率?人工智能是否可以帮助我们?近日,来自卡耐基梅隆大学(CMU)研究者们收集了上万篇 AI 顶级会议的接收/被拒论文,并使用机器学习工具进行分析,获得了一些有趣的结果。权威的科学会议利用同行评审来决定要将哪些论文列入其期刊或会议记录。虽然这一过程似乎对科学出版物至关重要,但其往往也饱受争议。意识到同行评审的重要影响,一些研究人员研究了这一过程中的各个方面,包括一致性、偏差、作者回应和一般评审质量 (Greaves 等,2006;Greaves 等,2011;De Silva and Vance, 2017)。例如,NIPS 2014 会议的组织者将 10% 的会议提交论文分配给两组不同的审查人员,以衡量同行评审过程的一致性,并观察到两个委员会对超过四分之一的论文接受/拒绝决定意见不一样 (Langford and Guzdial, 2015)。

尽管已经有了这些努力,但是关于同行评审的定量研究还是有限的,很大程度上是由于只有很少的人能够接触到一个学术活动的同行评审(例如期刊编辑和程序主席)。本文的目的是通过首次引入一个用于研究目的的同行评审公共数据集: PeerRead,来降低科学界研究同行评审的障碍。

同行评审是科学文献出版过程中的重要组成部分。在本研究中,我们提出了第一个可用于研究目的的科学文献同行评审公共数据集 ( PeerRead v1 ),该数据集为研究这一重要的现象提供了机会。该数据集由 1 万 4 千 700 份论文草稿,以及包括 ACL、NIPS 和 ICLR 在内的顶级学术活动对应的接受/拒稿决定组成。数据集还包括专家为论文子集撰写的 1 万零 700 份文本同行评审。我们描述了数据收集过程,并提供了在同行评审中观察到的有趣现象。我们在此基础上提出了两个新颖的 NLP 任务,并给出了简单的基线模型。在第一个任务中,我们展示了简单的模型可以预测一篇论文是否被接受,与大多数基线模型相比,误差减少了 21 %。在第二个任务中,我们预测了评审方面的数值分数,结果表明,对于诸如「原创性」和「影响」的高方差方面,简单模型可以优于平均基线。

GitHub地址项目 GitHub 地址

Python 知识卡片:Pandas

继续之前的《Python 知识卡片:数据科学入门》,Pandas 最初由 AQR Capital Management 于 2008 年 4 月开发,并于 2009 年底开源出来, 有 NumPy 的加持,让 Pandas 拥有了大量库和一些标准的数据模型,快速便捷地处理数据的函数和方法,可以让我们利用 Python 高效地操作大型数据集,使 Python 成为强大而高效的数据分析环境。Pandas 为了使实际的数据分析更加简单,设计出了快速、灵活而可读性高的数据结构。但可能对于那些刚刚接触 Pandas 的科研人员与学生来说,Pandas 并不是那么容易掌握,尤其是面对这个包里那么多的功能、那么多的选项。这张由 Datacamp 制作的小抄表覆盖了 Pandas 包的基础知识:从数据结构到输入/输出,数据选择,下降指数(Dropping Indices or Columns),数据整理和排序,获取所用数据结构的基本信息,到数据操作的功能应用、数据对齐等等。Python Pandas 库小抄表 PDF 下载。

Python 知识卡片:数据科学入门

这张由 Datacamp 制作的小抄表覆盖了所有 Python 数据科学需要的基础知识。如果你刚开始用 Python,可以留着这张做快速参考。背下这些小抄的代码变量、数据类型函数、字符串操作、类型转换、列表和常用操作。尤其是它列出了重要的 Python 包,给出了用于选择并导入包的小抄代码。查看这份小抄表,你将获得循序渐进学习 Python 的指导。同时,它提供了Python学习的必备包和一些有用的学习技巧等资源。Python 数据科学小抄表 PDF 下载。

YouTube 推荐算法透视

正如跨象乘云™ 的视频点播推荐系统大数据实训项目工程案例所描述,目前,算法已经成为驱动 YouTube 收入增长最有效的工具,使用神经网络通过大量数据和用户观看记录对用户进行分析,YouTube 的工程师将其描述为目前规模最大、最复杂的商用推荐系统。那这个推荐系统到底是怎么工作的呢?

本质上,过滤气泡(filter bubble,一种网站针对个人化搜索而提供筛选后内容的结果)的生成方式,也是所有推荐算法的工作原理。一小段电脑代码跟踪你正在进行的动作,比如你最常看的视频分类、最长观看时间,然后推荐给你同一类型的视频。内容推荐算法的过程一般包括以下三步:

  1. Item Representation:为每个 item 抽取出一些特征(也就是 item 的 content 了)来表示此 item;
  2. Profile Learning:利用一个用户过去喜欢(及不喜欢)的 item 的特征数据,来学习出此用户的喜好特征(profile);
  3. Recommendation Generation:通过比较上一步得到的用户 profile 与候选 item 的特征,为此用户推荐一组相关性最大的 item。上图内容推荐算法的步骤展示出了推荐算法的基本原理。

Google 前员工 Guillaume Chaslot 自建了一个网站 Algotransparency.org,用来揭示 YouTube 和 Google 算法的工作原理,让这个被称为全世界目前最复杂的商业推荐系统算法透明化。Chaslot 编写了一款软件,旨在为大家提供全球首个探究 YouTube 推荐引擎的窗口,该程序模拟用户在观看一个视频后引发推荐视频链,并跟踪数据。在过去的 18 个月中,Chaslot 利用该计划探索法国、英国和德国选举期间 YouTube 上推广内容的偏差,全球变暖和大规模枪击事件,并在他的网站 Algotransparency.org 上发布了他的调查结果。从目前该网站披露的项目来看,至少在 2016 年美国大选、拉斯维加斯枪击案、德国大选等事件中,YouTube 算法都发挥了重要的作用。

通过该网站的检测,有助于我们更好地了解 YouTube 算法带来的影响,同时带给我们关于机器学习算法透明化的思考:从用户的角度来看,算法透明化是趋势,也是有必要的,这就给破除“黑盒子”问题提出了更迫切的要求。

人工智能 DIY 套件:用硬纸板打造你自己的智能硬件

大大小小的科技公司纷纷加入 AI 的潮流,但这次有充分的理由。人工智能和机器学习是未来技术不可或缺的组成部分,可能会带给我们现在无法想象的计算机功能。而谷歌已经发现了一个新角色,为新兴工程师配备他们需要了解的 AI 工具并构建他们自己的 AI 解决方案。不,这不是机器人革命的开始。这是 Google 新的 “AIY” 计划的开始,它将为想要试验和了解不同 AI 解决方案的人们(主要是学生)提供全面的 DIY 套件。

Google 正在采取多项步骤中的第一步,帮助教育工作者将 AIY 集成到 STEM 课程计划中,并通过推出新版 AIY 工具包,帮助学生应对未来挑战 ——

语音套件可以让你建立一个语音控制的扬声器,而视觉套件可以让你建立一个摄像头,学习识别人和物体。新套件使得入门更简单,拥有更清晰的指示、更新的应用程序。所有的部件都装在一个盒子里。

为了使设置更简单,这两个套件都经过重新设计,可以与包含在盒子中的新树莓派 Zero WH 以及 USB 连接器电缆和预先配置的 SD 卡配合使用。现在用户不再需要下载软件映像,并且可以更快地运行。更新的 AIY Vision Kit v1.1 还包含树莓派 Camera v2。AIY 是一个非常酷的例子,科技公司采取一些主动行动来帮助和鼓励社区加强他们在学校的 STEM 计划。Google 全新的 AIY Voice Kit 和 Vision Kit 已经在全球各地的 Target.com 和 Target 商店上线,Google 希望在未来几个月内在其他地区推出。

AI 语义技术体验

近日,Google AI 研究机构发布了一款基于人工智能的搜索引擎,该实验项目可以让普通人也能感受最新语义理解和自然语言处理技术的强大能力:它们是目前人工智能技术发展的重要方向。值得一提的是,《奇点临近》一书的作者,谷歌研究院工程总监雷·库兹韦尔也参与了这一工作。Semantic Experiences 网站上有两个示例,展示了这些新的方法如何驱动之前不可能的应用。Talk to Books 是一种探索书籍的全新方式,它从句子层面入手,而不是作者或主题层面。Semantris 是一个由机器学习提供支持的单词联想游戏,你可以在其中键入与给定提示相关联的词汇。此外,谷歌还发布了论文《Universal Sentence Encoder》,详细地介绍了这些示例所使用的模型。最后,谷歌为社区提供了一个预训练语义 TensorFlow 模块,社区可以使用自己的句子或词组编码进行实验。

另外,Google 还发布了该技术体验项目的预训练模型