TensorFlow 支持 Unicode 编码

TensorFlow 现在可以支持 Unicode,这是一种标准编码系统,可以表示几乎所有语言的字符。处理自然语言时,了解字符的编码方式非常重要。在像英语这样的小字符集的语言中,每个字符都可以使用 ASCII 进行表示。但是这种方法对于其他语言来说并不实用,例如中文,这些语言有数千个字符。即使处理英文文本,Emojis 等特殊字符也不能用 ASCII 表示。

定义字符及其编码的最常用标准是 Unicode,它几乎支持所有语言。对于 Unicode,每个字符使用唯一的整数 code point 表示,其值介于 0 和 0x10FFFF 之间。当按顺序放置 code point 时,将形成[……]

继续阅读

270 GB 阿里巴巴数据中心数据开放下载

  • 数据中心每个机器的运行情况如何?
  • 这些机器上运行着什么样的应用?
  • 这些应用有什么特点?

对于这些问题,除了少数资深从业者之外,普通学生和企业的研究者很难了解其中细节。

为了让有兴趣的学生以及相关研究人员,可以从数据上更加深入地理解大规模数据中心,我们特别发布了这份数据集(Alibaba Cluster Data V2018)。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中,你可以详细了解到我们是如何通过混部把资源利用率提高到 45%;我们每天到底运行了多少任务[……]

继续阅读

PDF 数据表格提取神器

Excalibur,从古希腊语翻译过来就是『神剑』,它现在也是一种用于从 PDF 中提取表格数据的 Web 界面,使用 Python 3 编写,由 Camelot(Python 库) 提供支持,可以让任何人轻松地从 PDF 文件中提取表格数据。需要注意的是,Excalibur 仅适用于基于文本的 PDF 文件,扫描文件不在此列。

可移植文件格式

PDF 文件定义了将字符放置在相对于页面左下角的 x,y 坐标的指令。通过将某些字符放在比其他字符更近的地方来模拟单词。空格是通过将单词放在相对较远的地方来模拟的。最后,通过放置在电子表格中显示的字词来模拟表格,格式没有表格结构的内部表示。[……]

继续阅读

机器学习概述

机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用,但机器学习的发展仍还在继续,甚至被认为有可能彻底改变人类文明的发展方向乃至人类自身。但你了解现在正在发生的这场变革吗?四大会计师事务所之一的普华永道(PwC)近日发布了多份解读机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。

1. 什么是机器学习?

机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。

2. 机器学习[……]

继续阅读

吴恩达发布《AI转型指南》

人工智能毫无疑问重塑了工程师和研究者们,但是,掌管公司发展前景的CEO们更关心什么呢?

今年8月份,吴恩达在自己的推特上发布了一个问题,称自己因为 Landing.ai 的项目到访很多国家,和非常多的 CEO 交流过他们的 AI 策略,想基于此发布一个报告,因此也向大家征集最想了解的问题。话题一经发出就迅速获得了很多回应,最热的问题包括:如何评估投入产出比?如何从零开始开启人工智能项目等。

而吴恩达也高效率的兑现了自己的诺言。就在刚刚,他在自己的 Medium 专栏上发布了一份公开信,正式宣告了这份名为《人工智能转型指南(AI Transformation Playbook)》(下[……]

继续阅读

清华发布《人工智能芯片技术白皮书(2018)》

12 月 11 日,在第三届未来芯片论坛上,清华大学联合北京未来芯片技术高精尖创新中心发布《人工智能芯片技术白皮书(2018)》。

整个《白皮书》总共分为 10 个章节,第一章节首先对芯片发展的背景做了一个交代,然后从多个维度介绍了 AI  芯片的关键特征,在第三章介绍了 AI 芯片的发展现状;第四章从冯·诺伊曼瓶颈和 CMOS 工艺以及器件瓶颈分析了 AI 芯片的技术挑战。从第六章到第八章,《白皮书》完成了对芯片各种技术路线的梳理。在最后一章对未来技术发展趋势和风险进行了预判。

《白皮书》由斯坦福大学、清华大学、香港科技大学、加州大学、圣母大学的顶尖研究者和产业界资深专[……]

继续阅读

NVIDIA 发布迁移学习工具包

NVIDIA 迁移学习工具包对于深度学习应用开发人员和数据科学家来说是理想的工具,这些开发人员和数据科学家正在为智能视频分析(IVA)和医学成像等行业垂直领域找寻更快、更高效的深度学习训练工作流程。

迁移学习 SDK 通过允许开发人员微调 NVIDIA 提供的特定领域的预训练模型来抽象和加速深度学习训练,而不是从头开始花大量时间来从零开始构建深层神经网络。预训练模型加速了开发人员的深度学习训练过程,并且减少了大规模数据收集、标记和从零开始训练模型相关的成本。

迁移学习意味着可以从现有神经网络中提取已学习特征,并通过从现有神经网络转移权重来迁移这些已学习特征。NVIDIA 此次发布[……]

继续阅读

《图形深度学习》开放课程

CreativeAI: Deep Learning for Graphics

在计算机图形学中,许多传统问题现在通过基于深度学习的数据驱动方法得到更好的解决。在越来越多的问题设置中,深层网络是最先进的,远远超过了专门手工设计的方法。本教程对深度学习的核心理论、实践和图形相关应用进行了系统性的概述。以下为跨象乘云整理的大纲目录及 PPT 链接:

内容目录:

  1. 概述
  2. 机器学习基础
  3. 神经网络基础
  4. 特征可视化
  5. 直接监督的替代方案
  6. 图像
  7. 3D
  8. 物理动画

同时,课程还给出来大量的实验代码,并发布在 Github 上,包含主题:

  • 线性回归和多项式回归
  • 随机梯度下降
  • 多层感知器
  • 边缘过滤网络
  • 卷积网[……]

    继续阅读

PyTorch 1.0 正式版发布

PyTorch 1.0 同时面向产品化 AI 和突破性研究的发展,「我们在 PyTorch1.0 发布前解决了几大问题,包括可重用、性能、编程语言和可扩展性。」Facebook 人工智能副总裁 Jerome Pesenti 曾在 PyTorch 开发者大会上表示。

随着 PyTorch 生态系统及社区中有趣新项目及面向开发者的教育资源不断增加,今天 Facebook 在 NeurIPS 大会上发布了 PyTorch 1.0 稳定版。该版本具备生产导向的功能,同时还可以获得主流云平台的支持。

现在,研究人员及工程师可以轻松利用这一开源深度学习框架的新功能,包括可在 eager exe[……]

继续阅读

教育部指定人工智能、大数据等为战略性新兴专业

日前,教育部发布《教育部关于加快建设高水平本科教育全面提高人才培养能力的意见》(教高[2018]2号)文件,文件的第六个方面“大力推进一流专业建设”中,第22条提出要动态调整专业结构,原文如下:

“动态调整专业结构。深化高校本科专业供给侧改革,建立健全专业动态调整机制,做好存量升级、增量优化、余量消减。主动布局集成电路、人工智能、云计算、大数据、网络空间安全、养老护理、儿科等战略性新兴产业发展和民生急需相关学科专业。推动各地、各行业、各部门完善人才需求预测预警机制,推动高校形成就业与招生计划、人才培养的联动机制。”

在这7大一流专业建设中,“集成电路”、“人工智能”、“云计算”、“[……]

继续阅读