深度学习语义分割理论与实战指南

图像分类、目标检测和图像分割是基于深度学习的计算机视觉三大核心任务。三大任务之间明显存在着一种递进的层级关系,图像分类聚焦于整张图像,目标检测定位于图像具体区域,而图像分割则是细化到每一个像素。基于深度学习的图像分割具体包括语义分割、实例分割和全景分割。语义分割的目的是要给每个像素赋予一个语义标签。语义分割在自动驾驶、场景解析、卫星遥感图像和医学影像等领域都有着广泛的应用前景。本文作为基于 PyTorch 的语义分割技术手册,对语义分割的基本技术框架、主要网络模型和技术方法提供一个实战性指导和参考。

GitHub地址项目 GitHub 地址[……]

继续阅读

MMDetection 简略解析电子书

MMdetection 是港中文-商汤开源的,基于 Pytorch 实现的目标检测工具箱,支持 Faster R-CNN, Mask R-CNN, Cascade R-CNN, RetinaNet, Guided Anchoring, RepPoints, Foveabox, FreeAnchor, NAS-FPN, ATSS, NAS-FCOS 等等 SOTA 目标检测模型,并且提供了 DCNv2, Group Normalization, OHEM, Soft-NMS, GCNet, Mixed Precision 等新特性。

MMdetection 工具箱常常被用来当作比赛 Bas[……]

继续阅读

YOLOv4 重磅发布,5 大改进,20+ 技巧实验

今年 2 月 22 日,知名的 DarkNet 和 YOLO 系列作者 Joseph Redmon 宣布退出 CV 界面,这也就意味着 YOLOv3 不会再有官方更新了。但是,CV 领域进步的浪潮仍在滚滚向前,仍然有人在继续优化 YOLOv3。今日,著名的 AlexeyAB 版本发布了 YOLOv4 的论文。该论文提出了五大改进,二十多个技巧的实验。

目前,工业界常用的目标检测算法,SSD 是 2015年发表的,RetinaNet、 Mask R-CNN、Cascade R-CNN 是 2017 年发表的,YOLOv3 是 2018 年发表的。时光荏苒,过去的五年,深度学习也在不断更新,[……]

继续阅读

人像卡通化 (Photo to Cartoon) 开源项目

这个项目名叫「人像卡通化 (Photo to Cartoon)」,已经在 GitHub 上开源。但对于不想动手下载各种软件、数据集、训练模型的普通用户,该公司开放了一个名为「AI 卡通秀」的小程序,可以生成各种风格的卡通照片、GIF 表情包,完全可以满足社交需求。

GitHub地址项目 GitHub 地址[……]

继续阅读

CVPR 2020 Google 图像匹配挑战赛数据集

谷歌在 CVPR 2020 发起的图像匹配挑战赛,该比赛提供的数据集超过 2.5 万幅图像,包含精确的姿态和方向标注。这次比赛的任务更加偏向于三维重建中的图像匹配,从上图例中也可以看出,该数据集包含大量的大型建筑物在各种光线和不同视角拍摄的图像。比赛允许参与者参照传统局部特征的方法,先提取局部特征关键点再进行特征描述和图像匹配的策略;也欢迎不需要提取局部特征,一步到位计算出两幅图像对应姿态和方向的方法。

数据集总计109G,训练、验证、测试数据集均完整,供做图像匹配、局部特征提取方向的高校科研人员与人工智能、计算机视觉专业学生参考。你可以在这里下载。[……]

继续阅读

DFG 交通标志数据集

DFG 交通标志数据集,包括 200 个交通标志类别捕获在斯洛文尼亚公路跨越约 7,000 高分辨率图像。图像是由斯洛文尼亚 DFG 咨询公司提供和注释的。RGB 图像是通过安装在一辆汽车上的摄像头获得的,这辆汽车行驶在斯洛文尼亚六个不同的自治市。这些图像数据是在农村和城市地区获得的。从收集的大量数据中,只选择了包含至少一个交通标志的图像。此外,选择是这样进行的,通常有一个显着的场景变化之间的任何一对选定的连续图像。

该评价数据集称为 DFG 交通标志数据集是通过只关注具有足够数量样本的平面交通标志来创建的。每个类别至少有 20 个实例。边界框大小至少为 30 像素的样本被严格标注,而边[……]

继续阅读

奥迪大型自动驾驶数据集:A2D2

今天奥迪公司的研究人员在发布的论文 A2D2: Audi Autonomous Driving Dataset 中,公布了其大型自动驾驶数据集:A2D2,同时还配备了相关教程,并提供开放下载。数据集目标为推进计算机视觉、机器学习、自动驾驶的商用和学术研究。数据类型包含:RGB 图像,也包括对应的 3D 点云数据,记录的数据是时间同步的。标注类型包括:目标 3D 包围框,语义分割,实例分割以及从汽车总线提取的数据。数据规模:标注的非序列数据,41,227 帧,都含有语义分割标注和点云标签。其中含有前置摄像头视野内目标 3D 包围框标注 12,497 帧。另外,该库还包括 392,556 连续帧的[……]

继续阅读

实时『人手-物体』姿态估计算法 HOPE-Net

CVPR 2020 的论文《HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation》,基于自适应图卷积技术,作者提出了一种称之为 HOPE-Net 的『人手 – 物体』姿势估计模型,在这个问题上不仅计算结果精度更高、速度也更快,GPU 上达到实时!

GitHub地址项目 GitHub 地址[……]

继续阅读

DeepLesion:最大开源临床医疗图像数据集

NIH 临床中心最新公布了一个迄今规模最大的多类别、病灶级别标注临床医疗 CT 图像开放数据集 DeepLesion,研究人员在此基础上训练深度神经网络,创建了一个具有统一框架的大规模通用病灶检测器,能够更准确、更自动地衡量患者体内所有病灶的大小,实现全身范围的癌症初步评估。数据集包含:

  • 4,427 名独立的匿名患者
  • 10,594 次 CT 扫描(平均每位患者有 3 次随访)
  • 32,735 个带标记的病灶实例
  • 一共 928,020 张 CT 横切图像(512×512 分辨率)

[……]

继续阅读

超轻量级中文 OCR

光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上的试题等。近期,这个叫做 chineseocr_lite 的 OCR 项目开源了,这是一个超轻量级中文 OCR 实现中文自然场景文字检测及识别。该项目支持竖排文字识别,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) + anglenet (1.5M) 总模型仅 17M。

GitHub地址项目 GitHub 地址[……]

继续阅读