特征工程系列:特征筛选的原理与实现(上)

前言

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。

那特征工程是什么?

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。

特征工程又包含了Feature Selection(特征选择)、Feature Extraction(特征提取)和 Feature construction(特征构造)等子问题,本章内容主要讨论特征选择相关的方法及实现。

在实际项目中,我们可能会有大量的特征可使用,有的特征携带的信息丰富,有的[……]

继续阅读

IBM 开源三个抗癌 AI 项目

项目地址:

https://www.techzine.be/nieuws/41092/ibm-maakt-drie-ai-projecten-gericht-op-kankeronderzoek-opensource.html

近日,IBM 向开源社区发布了三个旨在克服治愈癌症的 AI 项目。在本月晚些时候将在瑞士举行的第 18 届欧洲计算生物学大会(ECCB)和第 27 届分子生物学智能系统大会(ISMB)上,将会深入介绍PaccMann 项目。

2018 年,癌症导致全球 960 万人死亡,此外,同年增加了 1800 多万新的癌症病例。IBM 计算系统生物学小组的研究人员[……]

继续阅读

神经网络「黑盒子」的正确打开方式!

现代神经网络经常被吐槽为「黑盒子」。尽管它们在各类问题上都取得了成功,但我们仍无法直观地理解它们是如何在内部做出决策的。随着人工智能系统被应用到更多重要的场景中,更好地了解其内部决策过程将有助于研究者能够及时发现其中的缺陷和错误。对此,谷歌 AI 研究院与 OpenAI 一起合作提出了能够弄清这个「黑盒子」里面到底有什么的新方法——激活图集。谷歌在博客上发布文章介绍了这一意义重大的成果 ——

神经网络已成为图像相关计算任务中的实际标准,目前已被部署在多种场景中:从自动标记图像库中的照片到自动驾驶系统,我们都能看到神经网络的身影。鉴于机器学习系统的在执行方面的准确性比不使用机器学习、直接由[……]

继续阅读

机器人 4.0 白皮书

近日,达闼科技联合英特尔、新松机器人、科沃斯商用机器人共同发布《机器人 4.0 白皮书 ——云-边-端融合的机器人系统和架构》。

报告摘要

近年来,数字经济正在席卷全球,全球经济向数字经济迁移已经势在必然,数字经济已经成为国家的核心竞争力。据上海社科院测算,2016 年到 2018 年,中国数字经济对 GDP 增长的贡献率分别达到了74.07%、57.50%和 60.00%。预计 2019 年中国数字经济增长仍将占到62.50%。

数据成为驱动经济增长的核心生产要素。大数据和云计算等技术的融合,推动了物联网的迅速发展,实现了人与人、人与物、物与物的互联互通,导致数据量呈现爆发式增长。[……]

继续阅读

哈工大NLP工具:PyLTP

一、哈工大 LTP

LTP(Language Technology Platform)中文为语言技术平台,是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP 制定了基于 XML 的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等 6 项中文处理核心技术),以及基于动态链接库(Dynamic Link Library,DLL)的应用程序接口,可视化工具,并且能够以网络服务的形式进行使用。

最全面的《深度学习》精炼笔记

《深度学习》,又名『花书』。该书由三位大佬 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 撰写,是深度学习领域奠基性的经典教材,被誉为深度学习“圣经”。

花书怎么学?参考优秀的笔记往往能帮助你事半功倍!今天给大家推荐一份不错的花书学习笔记,挺详细的。作者是来自于谷歌的软件工程师—川陀学者。我们一起来看看!

为方便以后查阅,把深度学习花书 Deep Learning 每一章的读书笔记做个索引,完整的笔记也是根据书籍目录来的。

花书的目录如下:

下面我们来详细看一下完整笔记内容!

第一部分 机器学习基础

第[……]

继续阅读