自动机器学习 (AutoML) 工业落地

机器学习方法已被用于各种现实世界的应用,从社交网络、在线图像/视频分享平台、电子商务到教育、医疗等。然而,机器学习方法的几个组成部分,包括:数据表示,超参数和模型架构,可以在很大程度上影响它们在实践中的性能。此外,数据规模和模型大小的爆炸式增长,使得机器学习开发人员对这些组件进行优化的时间越来越长。为了解决这些挑战,自动化机器学习 (AutoML) 的目标是自动化应用机器学习方法的过程,以解决现实世界的应用任务,减少调整机器学习方法的时间,同时保持良好的性能。

在 2021 年 KDD 大会上, 阿里团队介绍了 AutoML 的主要研究主题,包括:超参数优化,神经结构搜索和元学习。同时,[……]

继续阅读

《机器学习》公式数学推导补充

深入掌握机器学习的两大核心包括:数学推导与编码实现。机器学习原理大多都是由数学支撑,基本的机器学习数学公式推导对于深入掌握机器学习十分重要;另一方面,通过在不调用算法库的前提下,通过基础编码实现机器学习算法,深入理解算法细节,进一步提高算法实现的代码能力。其中,《机器学习》教材中,推导细节没有详述,比较难理解的公式需要加以解析,以及对部分公式补充跳过的解题步骤。包括 ——

绪论

  1. 公式1.2:二分类按均匀分布对误差求和运算解析

模型评估

  1. 公式2.20:AUC估算运算解析
  2. 公式2.21:排序损失运算解析
  3. 公式2.27:二次校验结论置信度勘误与运算推导
  4. [……]

    继续阅读

轻量级机器学习模型训练评估指标可视化工具

Model Log 是一款基于 Python3 的轻量级机器学习(Machine Learning)、深度学习(Deep Learning)模型训练评估指标可视化工具,与 TensorFlow、Pytorch、PaddlePaddle结合使用,可以记录模型训练过程当中的超参数、Loss、Accuracy、Precision、F1值等,并以曲线图的形式进行展现对比,轻松三步即可实现。可以通过调节超参数的方式多次训练模型,并使用 Model Log 工具进行记录,可以很直观的进行模型对比,堪称调参神器。以下是使用工具后模型训练时 Loss 的变化曲线图。

GitHub地址项目 GitHub 地址[……]

继续阅读

全面比较机器学习算法的八大维度

人类发明的机器学习ML)算法简直数不胜数。当然,大多数时候只有一小部分被用于研究和工业。然而,对于个人来说,理解并记住所有这些 ML 模型的细节仍然有点困难。有些人可能会有一个错误的印象,认为所有这些算法都是完全不相关的。更重要的是,当两种算法似乎都有效时,如何选择使用算法 A,还是 B?这篇文章的目的是为读者提供一个不同的角度来看待 ML 算法。有了这些角度,算法可以在同样的维度上进行比较,并且可以很容易地进行分析。本文在撰写时考虑了两个主要的 ML 任务 —— 回归和分类。

时间复杂度

在 RAM 模型 下,算法所花费的时间是由算法的基本运算来度量的。虽然用户和开发人员可能更关心算法[……]

继续阅读

人人都能懂的机器学习

机器学习这个主题已经很普遍了,每个人都在谈论它,但很少有人能够透彻地了解它。当前网络上的一些机器学习文章晦涩难懂,理论性太强,或者通篇云里雾里地介绍人工智能、数据科学的魔力以及未来的工作等。所以呢,本文作者,通过简洁的语言和清晰明了的图示内容,使得读者能够更容易地理解机器学习。抛却了晦涩难懂的理论介绍,文中侧重于机器学习中的实际问题、行之有效的解决方案和通俗易懂的理论。无论你是程序员还是管理者,本文都适合你。

机器学习已成为一种学习的潮流,无论是否具有计算机专业背景,是否懂得编程的人士,都开始希望或多或少掌握机器学习的核心概念与应用。跨象乘云™ 正在制作并持续更新的,基于可视编程机器学习[……]

继续阅读

Pandas 中文官方教程

此前,跨象乘云 发布了《Python 知识卡片:Pandas》。Pandas 是一个强大的分析结构化数据的工具集;它的使用基础是 NumPy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。学习 Pandas 最好的方法就是看 Pandas 官方教程,日前,国内学习小组发布了 Pandas 官方教程的中文版,包括:《十分钟搞定 pandas》,《Pandas 秘籍》,《学习 Pandas》。

Pandas 中文官方教程》PDF 下载。[……]

继续阅读

基于 NumPy 的 30 多个机器学习算法开源代码

NumPy 手写所有主流 ML 模型,普林斯顿博士后 David Bourgin 最近开源了一个非常剽悍的项目。超过 3 万行代码、30 多个模型,这也许能打造「最强」的机器学习基石。NumPy 作为 Python 生态中最受欢迎的科学计算包,很多读者已经非常熟悉它了。它为 Python 提供高效率的多维数组计算,并提供了一系列高等数学函数,我们可以快速搭建模型的整个计算流程。

尽管目前使用 写模型已经不是主流,但这种方式依然不失为是理解底层架构和深度学习原理的好方法。最近,来自普林斯顿的一位博士后将 NumPy 实现的所有机器学习模型全部开源,并提供了相应的论文和一些实现的测试效果[……]

继续阅读

微软推出 Python 零基础教程

如果你想了解一门既实用又简单的语言,作为你程序人生的第一步,那么,Python 无疑是最适合你的。数据科学家和人工智能从业者们尤其喜欢 Python,因为它有丰富的、易于理解的语法和广泛的开源软件。然而,目前大部分的所谓入门教程,实际上对于真正零基础的人来说还是具有很高的门槛,同时,几百页的书和动不动上百个小时的学习视频对有的人来说,无疑是劝退。

微软意识到了这一点,也充分理解大多数人对于学习的耐心,于是就开发了一门 Python 的入门课程《Python for Beginners》(国内镜像),基于原生 VS Code,每节课只有 5-10 分钟,可以被认为是真正的入门及课程了。[……]

继续阅读

《模式识别与机器学习 – PRML》中文版

日前,微软剑桥研究院公布了一个好消息,Christopher Bishop 所著的,最经典的机器学习教科书之一:《模式识别与机器学习》(Pattern Recognition and Machine Learning),公开了免费的 PDF 版本。这本经典的教科书全面介绍了模式识别和机器学习领域。它面向高年级本科生或一年级博士生,以及研究人员和从业人员。这是第一本机器学习教科书,全面包含该领域近期发展,包括概率图形模型和确定性推理方法,并强调现代贝叶斯。它适用于机器学习,统计学,计算机科学,信号处理,计算机视觉,数据挖掘和生物信息学等课程。该书出版于 2006 年,共有 738 页,全彩印刷,[……]

继续阅读