旷视发布最大物体检测数据集

在 4 月 16 日的智源学者计划启动暨联合实验室发布会上,旷视科技发布了通用物体检测数据集Objects365,包含 63 万张图像,远超 ImageNet、COCO 等数据集。另外,还开办了针对此数据集的 CVPR Workshop 竞赛。数据集包括人、衣物、居室、浴室、厨房、办公、电器、交通、食物、水果、蔬菜、动物、运动、乐器 14 个大类,每一类都有数十个小类。

机器学习算法概述

作为 AI 的重要分支,机器学习在推荐系统、在线广告、金融市场分析、计算机视觉、语言学、生物信息学等诸多领域都取得了巨大的成功。机器学习并不是像我们字面理解的那样,让冷冰冰的机器去学习,或者狭义的理解为让机器人去学习。机器学习,从本质上来说,可以理解为算法学习(Algorithm Learning)、模型学习(Model Learning)或者叫函数学习(Function Learning)。本文提供《10 种机器学习算法介绍》PPT 下载。

机器学习算法大致可以分为三类 ——

  • 监督学习算法 (Supervised Algorithms):在监督学习训练过程中,可以由训练数据集学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。该算法要求特定的输入/输出,首先需要决定使用哪种数据作为范例。例如,文字识别应用中一个手写的字符,或一行手写文字。主要算法包括神经网络、支持向量机、最近邻居法、朴素贝叶斯法、决策树等。
  • 无监督学习算法 (Unsupervised Algorithms):这类算法没有特定的目标输出,算法将数据集分为不同的组。
  • 强化学习算法 (Reinforcement Algorithms):强化学习普适性强,主要基于决策进行训练,算法根据输出结果(决策)的成功或错误来训练自己,通过大量经验训练优化后的算法将能够给出较好的预测。类似有机体在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。在运筹学和控制论的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。

高盛人工智能报告中文版

人工智能是信息时代的尖端科技。计算的飞跃建立在人类告知计算机如何表现的基础上,计算建立在计算机学习如何表现能够对每个行业有意义的基础上。

与此同时,人工智能、机器人和自动驾驶己成为流行文化的前沿,甚至是政治表述。 但是,我们去年的研究让我们相信这不是一个失败的开端,而是一个拐点。 我们将在这个报告里看到,宏观(更多更快的计算和更多数据的爆炸式增长)和更加微观方面(在深度学习方面的有益进展, 智能硬件和开源方面的增长)的拐点的原因。

高盛《人工智能报告中文版》下载

Google发布端到端AI平台

Google 端到端 AI 平台是一个为开发人员和数据科学家提供的端到端的服务,可用于模型的构建、测试和部署。AI 平台上汇集了谷歌云上现有和今天新推的工具,开发者可以构建完整的数据 pipeline 来提取、标记数据,并且用现存的分类、物体识别和实体提取模型、AutoML 工具或云机器学习(Cloud Machine Learning )引擎来训练和部署自定义模型。在这个 AI 平台上,训练和部署一站式配齐,能帮助开发者能在每个开发阶段安全转移模型,并且操作方便,点击一下就可以部署了。

Machine learning development: the end-to-end cycle
Machine learning development: the end-to-end cycle

《工业大数据白皮书》2019版

近日,由中国电子技术标准化研究院、全国信息技术标准化技术委员会大数据标准工作组主编,工业大数据产业应用联盟联合主编,联想集团等多家联盟成员企业参编的《工业大数据白皮书(2019版)》发布。

工业大数据白皮书(2019版)》基于工业大数据技术、产业发展现状,重点围绕『工业数据管理』这一热点议题,提炼了当前工业领域数据管理的重要方法,完善了工业大数据标准体系,为推动工业大数据落地应用和战略部署提供标准化支撑。

人工智能的现状与未来(无水印版 PPT)

人工智能引领新的工业革命,需要正确理解其技术核心、学科定位、架构演进,当前深度学习和知识图谱成其左膀右臂,象征人类智谋的智能博弈在围棋后的下一个高地在哪里?走向人机融合的未来,人工智能将向什么方向演进发展,人类社会将面临哪些变革,需要我们从不同维度不断去研究思考。下载链接

LaTeX 代码数学神器

这是一个帮你快速把数学公式图片转成 LaTeX 代码的工具,名为 Snip,可以免费下载使用。操作非常简单!下载工具之后,只需要一个快捷键,把数学公式截图下来,它就能给你LaTeX代码,你也可以直接在任务栏中修改代码,然后复制、粘贴,写出自己的公式。而且,这一工具不仅仅适用于用电脑打出来的公式,你自己手写的公式,也可以识别出来。

Convert images to LaTeX
Convert images to LaTeX

更好的是,这个工具适用于 Mac、Windows、Ubuntu 系统,适用于所有支持 LaTeX 的编辑器。

 

埃森哲:大数据分析方法论

当前,越来越多的应用涉及到大数据,而这些大数据的属性,包括数量、速度、多样性等等都呈现出不断增长的复杂性,因此,大数据分析方法在这一领域也就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。全球最大的管理咨询公司「埃森哲」的此前发布了一份 PPT,讲述大数据分析方法,看看他们具体是如何进行的。

由于此报告发布已经有一段时间,里面所提及的各种数据分析工具未必是最好的选择。诸如:SAS / SPSS / MATLAB 均为严谨高效的数据统计商业应用型工具,好比数据库中的 ORACLE,然而, R 与 Python 显然更匹配基础科学人才培养目标。同时,数据科学与大数据在各细分领域并发性爆发,充分展现了开源生态圈协同开发模式的强大优势与趋势。同时标志着『半成品化』应用工具时代的到来。最后,R 与 Python 逐步成为贯穿数据科学与大数据,机器学习,深度学习,新一代人工智能,乃至区块链技术一脉相承的语言工具,纯数据以外,更多的对象被纳入统计范围内。

尽管如此,从全面解读数据分析方法论的角度而言,此份报告仍然不失为一份有价值的参考材料。

《埃森哲:大数据分析方法论》。下载

局部渐进稀疏技术自动驾驶新数据集

NuScenes 最新研究发布了一个大型自动驾驶数据集,该数据集是首个包括 5 个雷达,1 个激光雷达,6 个摄像头,IMU 和 GPS 在内的完整传感器套件的数据集。 NuTonomy场景(NuScenes)比 KITTI 数据集多出 7 倍和 100 倍的图像,涵盖 23 个类别,包括不同类型的车辆,行人,移动设备及其他对象。

研究人员还发明了一种新的 3D 方法来整合各种物体检测的类别和任务,包括对物体大小,分类,方向,本地化,速度和属性的检测和估计。针对激光雷达和图像检测方法的数据集分析和基线测试证明,尽管仅基于激光雷达和仅基于图像的物体检测都能达到物体识别的要求,但仅激光雷达的网络性能更为优越。

NuScenes 能够加速自动驾驶方面的研究和技术,从而推进物体识别技术,并使相关技术更加实用化。我们希望研究人员鼓励对于 NuScenes 的进一步探索,以使其能够运用所有传感器数据并利用语义地图来获得更好的性能。因为每个传感器模态都提供用于训练 3D 对象检测的补充特征。