开源自动化机器学习框架,轻松搞定机器学习

自动化机器学习 (AutoML) 可以帮助机器学习管道中的某些关键组件实现自动化。其中机器学习管道包括数据理解、数据工程、特征工程、模型训练、超参数调整、模型监控等。

在这篇文章中,分享 8 个开源的 autoML 框架:

  • Auto-Sklearn
  • TPOT
  • Auto-ViML
  • H2O AutoML
  • Auto-Keras
  • MLBox
  • Hyperopt Sklearn
  • AutoGluon

1、Auto-Sklearn

Auto-sklearn 是基于 scikit-learn 软件包构建的开源 AutoML 库。它为给定的数据集找[……]

继续阅读

图像标注的基础内容介绍

给大家介绍图像标注的种类,应用场景,以及各种标注的优缺点。

如果没有数据分析,公司就会变得既盲又聋,就像高速公路上的鹿一样在网络上游荡。—  Geoffrey Moore

每个数据科学任务都需要数据。具体地说,是输入系统的干净易懂的数据。说到图像,计算机需要看到人类眼睛看到的东西。

例如,人类有识别和分类物体的能力。同样,我们可以使用计算机视觉来解释它接收到的视觉数据。这就是图像标注的作用。

图像标注在计算机视觉中起着至关重要的作用。图像标注的目标是为和任务相关的、特定于任务的标签。这可能包括基于文本的标签(类),绘制在图像上的标签(即边框),甚至是像素级的标签。我们将在下面探讨这[……]

继续阅读

教你搭建计算机视觉开发环境

本文将以 Linux 系统下安装 tensorflow 为例来讲解计算机视觉开发环境的搭建过程。

1、安装 nvidia 驱动

首先去 Nvidia 官网上查看适合你的 GPU 的驱动(http://www.nvidia.com/Download/index.aspx?lang=en-us)。选择 GPU 产品类型(以下用的是 NVIDIA TITAN Xp),查找适合的驱动如下图:

找到的驱动版本如下所示:

下载 NVIDIA 驱动安装包(.run格式)。下载后的文件为:

/home/bai/Downloads/NVIDIA-Linux-x86_64-410.78.[......]<p class="read-more"><a href="https://www.080910t.com/2021/05/20/how-to-build-a-computer-vision-development-environment/">继续阅读</a></p>

数据可视化指南

今天分享一份谷歌数据可视化团队形成的一套全面的数据可视化指南, 涵盖了设计原则、图表分类、图表的选用、样式设计、交互设计、仪表板设计等方面。

数据可视化

数据可视化就是用图形描绘信息。

原则

数据可视化是一种以图形描绘密集和复杂信息的表现形式。数据可视化的视觉效果旨在使数据容易对比,并用它来讲故事,以此来帮助用户做出决策。

数据可视化可以表达不同类型和规模的数据,包括从几个数据点到有大量变量的数据集。

类型

数据可视化可以以不同的形式表达。图表是表达数据的常用方式,因为它们能够展示和对比多种不同的数据。图表类型的选择主要取决于两点:要表现的数据和表现该数据的用意。该指南描[……]

继续阅读

医学图像处理综述

引言

医学图像处理的对象是各种不同成像机理的医学影像,临床广泛使用的医学成像种类主要有X-射线成像 (X-CT)、核磁共振成像(MRI)、核医学成像(NMI)和超声波成像(UI)四类。在目前的影像医疗诊断中,主要是通过观察一组二维切片图象去发现病变体,这往往需要借助医生的经验来判定。利用计算机图象处理技术对二维切片图象进行分析和处理,实现对人体器官、软组织和病变体的分割提取、三维重建和三维显示,可以辅助医生对病变体及其它感兴趣的区域进行定性甚至 定量的分析,从而大大提高医疗诊断的准确性和可靠性;在医疗教学、手术规划、手术仿真及各种医学研究中也能起重要的辅助作用。目前,医学图像处理主要集中表现[……]

继续阅读

《机器学习》公式数学推导补充

深入掌握机器学习的两大核心包括:数学推导与编码实现。机器学习原理大多都是由数学支撑,基本的机器学习数学公式推导对于深入掌握机器学习十分重要;另一方面,通过在不调用算法库的前提下,通过基础编码实现机器学习算法,深入理解算法细节,进一步提高算法实现的代码能力。其中,《机器学习》教材中,推导细节没有详述,比较难理解的公式需要加以解析,以及对部分公式补充跳过的解题步骤。包括 ——

绪论

  1. 公式1.2:二分类按均匀分布对误差求和运算解析

模型评估

  1. 公式2.20:AUC估算运算解析
  2. 公式2.21:排序损失运算解析
  3. 公式2.27:二次校验结论置信度勘误与运算推导
  4. [……]

    继续阅读

清华大学发布《智慧人才发展报告》

人才是国家科技创新经济发展的首要驱动力,是在当今日趋严峻的国际竞争中取得优势的核心要素。习近平总书记在座谈会上指出 『得人者兴,失人者崩』,现在国家、城市乃至公司的竞争,归根结底是人才的竞争,人才越来越成为推动经济社会发展的战略性资源。近日,清华大学 — 中国工程院知识智能联合研究中心隆重发布《智慧人才发展报告》。

该报告经过大数据挖掘找出我国人才发展的痛点,运用知识图谱技术,通过案例研究法,说明智慧人才生态平台对人才队伍建设的积极促进作用,成为该报告的一大看点。将大数据、云计算、人工智能等智能化技术融入到人才大数据挖掘和管理任务中,该报告打造一套智慧人才管理体系和人才生态平台,为提升人[……]

继续阅读

自制树莓派复古街机开源教程

来自 Combient Mix 的数据科学家 Max Fischer 开始了一个从头开始构建全尺寸街机的项目,这台街机的核心计算设备就是树莓派。近日,Max 将街机创建的全过程写成文档,并发布在 GitHub 上。该项目详细介绍了搭建全尺寸街机的所有步骤,包括预先设计好的 CAD 文件(可免费下载)、组装机身的方法、运行街机程序的树莓派设置方法等。每一步教程都有具体的照片可以参考,当然,除了树莓派,你还需要一个设备齐全的工具间。项目包括两个主要部分:街机机身搭建、内部电子器件设置与连接。

GitHub地址项目 GitHub 地址[……]

继续阅读

CenterNet 原理与代码解析

CenterNet 源码解析_GiantPandaCV》是首发于 GiantPandaCV 公众号的电子书教程,由 pprp 总结并整理 CenterNet 相关解析,这本电子书是基于非官方的 CenterNet 实现,这个版本的实现入门难度小一些。基于官方版本进行修改,要比官方代码更适合阅读和理解,Data Loader、hourglass、训练流程等原版中比较复杂的部分都进行了重写,最终要比官方的速度更快。

GitHub地址项目 GitHub 地址[……]

继续阅读

MIT 数据分析工具教程

这门课是 MIT 商业分析(BA)硕士项目的必修课,主要讲解了目前常用的一些数据分析工具,包括用 SQL 进行数据检索,用 Python,R 进行数据操作以及数据可视化和 git 和 Bash 的使用。

另外,MIT 老师还在自己的网站上给了这门课的文字教程和相关资料,非常适合大家学习。[……]

继续阅读