新冠病毒数据分析过程中的数据科学基础知识

同步发布地址

本文转载自:大数据文摘 | BigDataDigest;结合跨象乘云™ 原创发布的:新冠病毒(COVID-19)数据分析系列视频,对新冠病毒数据分析过程中的数据科学基础知识和思维模型,进行清洗的脉络梳理与补充。

山川异域,风月同天。在全球蔓延的新型冠状病毒肺炎,已成为全世界关注的焦点,全球数据科学家,人工智能专业团队,都在通过不同的途径,从不同的角度支援这场全人类的『抗疫』战争,包括:对新冠疫情趋势进行分析和预测;对病毒基因进行解构,加速疫苗研发;对肺炎病患 X 光片进行智能甄别;对行人是否佩戴口罩进行识别。跨象乘云™ 专门开辟了针对新冠病毒(COVID-19)的数据[……]

继续阅读

YOLOv4 重磅发布,5 大改进,20+ 技巧实验

今年 2 月 22 日,知名的 DarkNet 和 YOLO 系列作者 Joseph Redmon 宣布退出 CV 界面,这也就意味着 YOLOv3 不会再有官方更新了。但是,CV 领域进步的浪潮仍在滚滚向前,仍然有人在继续优化 YOLOv3。今日,著名的 AlexeyAB 版本发布了 YOLOv4 的论文。该论文提出了五大改进,二十多个技巧的实验。

目前,工业界常用的目标检测算法,SSD 是 2015年发表的,RetinaNet、 Mask R-CNN、Cascade R-CNN 是 2017 年发表的,YOLOv3 是 2018 年发表的。时光荏苒,过去的五年,深度学习也在不断更新,[……]

继续阅读

Google 18 万小时的海域录音助力保护座头鲸

近几年,人工智能已经走进了各个领域,以帮助人类更好的进行研究。近日,《纽约时报》报道称,机器学习为海洋『巨头』座头鲸的科学研究提供了很大帮助。AI 可以通过长达 18 万小时的太平洋海下录音,检测出座头鲸歌声出现的时间和地点。美国国家海洋与大气管理局生态学家联系 Google 寻求帮助,希望在所有其他海洋噪音(例如海豚的叫声或轮船发动机的声音)中找到座头鲸的歌声。Google 工程师利用带注释数据集(其中鲸鱼歌声和其他噪音已被识别出来)在十小时内训练出一个神经网络来探测鲸鱼的歌声,这个网络基于一个用于识别 Youtube 视频中声音的模型

事实上,AI 对于海洋研究用处很大,因[……]

继续阅读

开源医学 AI 框架 MONAI

昨日,英伟达与伦敦国王学院发布开源医学 AI 框架 MONAI。该框架使用 PyTorch 深度学习框架,并使用了分布式内存计算平台 Ignite。基于 NVIDIA Clara,NiftyNet,DLTK and DeepNeuro 等库。旨在提供一种开源、标准化程度高、用户友好、可复现性好、易于集成、高质量的针对医疗领域特定优化的深度学习框架,方便处理不同格式、不同分辨率、元数据的医学图像。其中算法的可重复性是设计该框架重点考虑的问题。

在目前的第一个发布版中已经囊括了特定领域数据转换、神经网络架构、和一些模型评估方法。已包含数据处理、2D 图像分类、3D 图像分割等目前在业界表现[……]

继续阅读

霍普金斯大学新冠在线课程免费发布

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

当前,全球新冠肺炎感染确诊人数已超过 260 万,同时美国新冠肺炎确诊人数已经超过 85 万。在这种情况下,为了让医护人员和普通民众对这种病毒有更深更全面的了解,约翰 · 霍普金斯大学为公众开设了一个免费的在线课程,来自大学各个新型冠状病毒肺炎的专家——包括那些在研究和治疗前线的专家,带来关于这种疾病、它的传播和预防方法的最新见解和证据。课程发表在约翰 · 霍[……]

继续阅读

人像卡通化 (Photo to Cartoon) 开源项目

这个项目名叫「人像卡通化 (Photo to Cartoon)」,已经在 GitHub 上开源。但对于不想动手下载各种软件、数据集、训练模型的普通用户,该公司开放了一个名为「AI 卡通秀」的小程序,可以生成各种风格的卡通照片、GIF 表情包,完全可以满足社交需求。

GitHub地址项目 GitHub 地址[……]

继续阅读

玩转深度学习在 GTA-5 实现自动通关

这是一个使用深层神经网络并运用监督学习实现在 Grand Theft Auto V 中自动驾驶的开源项目。项目使用 PyTorch 编写,并使用了英伟达的 Apex 扩展库,支持混合精度训练与推断,最多大约有两倍的速度提升。训练后模型在驾驶时的策略是模仿人玩 GTA 时的操作,并不会去遵守游戏里的交通规则。例如:地板油在街道上穿行,并躲避其他车辆与行人。当在游戏中设置好目标点后,训练好的模型能够自主地驾驶到对应目标点。

项目使用人工标记的数据来训练深层神经网络,即首先记录下游戏中的画面已经人玩游戏时的键盘操作,之后使用该数据集来训练神经网络模型。这里需要指出的是,本项目只是用 G[……]

继续阅读

CVPR 2020 Google 图像匹配挑战赛数据集

谷歌在 CVPR 2020 发起的图像匹配挑战赛,该比赛提供的数据集超过 2.5 万幅图像,包含精确的姿态和方向标注。这次比赛的任务更加偏向于三维重建中的图像匹配,从上图例中也可以看出,该数据集包含大量的大型建筑物在各种光线和不同视角拍摄的图像。比赛允许参与者参照传统局部特征的方法,先提取局部特征关键点再进行特征描述和图像匹配的策略;也欢迎不需要提取局部特征,一步到位计算出两幅图像对应姿态和方向的方法。

数据集总计109G,训练、验证、测试数据集均完整,供做图像匹配、局部特征提取方向的高校科研人员与人工智能、计算机视觉专业学生参考。你可以在这里下载。[……]

继续阅读

DFG 交通标志数据集

DFG 交通标志数据集,包括 200 个交通标志类别捕获在斯洛文尼亚公路跨越约 7,000 高分辨率图像。图像是由斯洛文尼亚 DFG 咨询公司提供和注释的。RGB 图像是通过安装在一辆汽车上的摄像头获得的,这辆汽车行驶在斯洛文尼亚六个不同的自治市。这些图像数据是在农村和城市地区获得的。从收集的大量数据中,只选择了包含至少一个交通标志的图像。此外,选择是这样进行的,通常有一个显着的场景变化之间的任何一对选定的连续图像。

该评价数据集称为 DFG 交通标志数据集是通过只关注具有足够数量样本的平面交通标志来创建的。每个类别至少有 20 个实例。边界框大小至少为 30 像素的样本被严格标注,而边[……]

继续阅读