CVPR 2020 论文及开源项目汇总

日前,CVPR 2020 中选论文正式放榜,跨象乘云™ 为您带来了相关论文及对应开源项目的代码汇总项目 —— CVPR 2020 论文开源项目合集。该项目完整覆盖了新一代人工智能科研在:图像分类、目标检测、3D 目标检测、目标跟踪、语义分割、实例分割、视频目标分割、NAS、GAN、Re-ID、3D 点云、人脸检测、活体检测、人脸表情识别、人体姿态估计、场景文本检测、场景文本识别、模型剪枝、行为识别、人群计数、深度估计、视觉问答、视觉语言导航、视频压缩、行为轨迹预测、数据集等方面的多领域应用。

GitHub地址项目 GitHub 地址

新型冠状病毒肺炎开源项目

『山川异域,风月同天』—— 新冠肺炎疫情牵动着举国上下的心,包括跨象乘云™ 在内,众多高科技企业除了向灾区捐赠物资,配合疫情防控工作,延期复工 / 远程办公的同时,也在积极探索如何利用大数据、新一代人工智能等新技术为『战疫』助力。

其中,针对 2020 年初在武汉爆发的新型冠状病毒疫情,新型冠状病毒防疫信息收集平台项目,旨在收集各医院、酒店、工厂、物流、捐赠、捐款、预防、治疗、动态等信息,统一收集,统一发布,以便各方之间进行信息互通,有效调配社会资源。

另外,除了 2019-nCoV 的现状和如何防护是我们关注的重点,这个疫情的起源也是一个关注点,2019-nCoV 时间线项目,记录了自 2019 年 12 月起武汉新冠肺炎疫情进展的时间线,由于一些敏感信息会导致删帖等操作,该项目完整地保留了舆情,如果你有兴趣可以阅读下该项目收录的文章,一个事件的生命周期在人们遗忘它的那刻便结束了,希望我们都不要忘记这段历史。

语音增强项目:Speech-enhancement

在语音识别与自然语言处理实验室建设过程中,语音数据是非常重要的科研资源之一。同时,语音数据面临的最大挑战在于在录制语音的过程中,周边环境噪音带来的对数据质量的影响。正因如此,Speech-enhancement 语音增强项目旨在建立一个语音增强系统来衰减环境噪声。

为了创建用于训练的数据集,收集了来自不同来源的英语语音的干净声音和环境噪音 —— 干净的声音主要来自 LibriSpeech:基于公共领域有声读物的 ASR 语料库。另外,使用了SiSec 的一些数据 —— 由总共 100 首不同风格的全音轨歌曲组成,包括混合物和四个原始音源及音干。环境噪声是从 ESC-50 数据集(完整版 ESC 语音语料库)以及部分用于 Matlab 实验教学的数据集。在这个项目中,重点研究了10类环境噪声:时钟,脚步声,铃铛,手锯,警报,烟花,昆虫,刷牙,吸尘器和打鼾。

为了创建用于训练 / 验证 / 测试的数据集,音频以 8kHz 采样,并且在 1 秒以上的时间内略微提取了窗口。对环境噪声进行了一些数据扩充(在不同时间获取窗口会创建不同的噪声窗口)。噪声已经混合在一起,以随机化的噪声级别(介于 20% 和 80% 之间)来清除声音。最后,训练数据包括 10h 的嘈杂声和干净的声音,以及 1h 的声音验证数据。

GitHub地址项目 GitHub 地址

中文自然语言处理数据集搜索引擎

本项目,可能是目前最全的中文 NLP 数据集信息收集及搜索引擎。该项目收集了一百多条中文自然语言处理数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。

项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

GitHub地址项目 GitHub 地址

胸部放射影像数据集:CheXpert

在这次新冠肺炎『战疫』中,面向医疗医学的深度学习与新一代人工智能科研攻关越显重要。如:在 Keras 中通过递归神经网络(RNN)为时间序列数据建模;使用 MedNIST 数据集进行医学图像分类;应用深度学习数据科学工作流在医疗领域;使用 DIGITS 实现医学影像分割;使用 TensorFlow 实现图像分类;使用 R 和 MXNet 实现医学影像分析;使用 GAN 对医学图像进行数据集扩展与图像分割;将由粗到细的上下文记忆应用于医学影像 …… 都是非常热门的研究方向。

其中,胸部放射影像是全球最常见的影像检查,对很多威胁终身的疾病的筛查、诊断和治疗至关重要。在论文《CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison》中,作者介绍了一种用于解释胸部放射影像的大型数据集 —— CheXpert(Chest eXpert)。该数据集包含来自 65,240 个病人的 224,316 张胸部放射影像,这些影像中标注了 14 种常见的胸部放射影像观察结果。作者设计了一个标注工具,它能够从放射报告文本中提取观察结果并使用不确定性标签捕捉报告中存在的不确定性。

CheXpert 的任务是要根据多视角胸部放射影像来预测 14 种不同观察结果的概率。作者尤其关注数据集中的不确定性标签,并研究了结合这些不确定性标签来训练模型的不同方法。然后在包含 200 项标记的验证集上评估了这些不确定性方法的性能,这些标注真值由 3 位放射科医生一致确定,他们用放射影像注释了该验证集。作者根据病理的临床意义和在数据集中的流行程度,在 5 个选定的观察结果上评估其方法,发现不同的不确定性方法能够用于不同的观察结果。

最佳 Pytorch 科研项目架构模板实践

此前,跨象乘云™ 发布了《最佳TensorFlow科研项目架构模板实践》,TensorFlow 是帮助深度学习新方法走向实现的强大工具。它为大多数深度学习领域中使用的常用语言提供了大量应用程序接口。对于开发者和研究人员来说,在开启新的项目前首先面临的问题是:如何构建一个简单明了的结构。所以,经过大量的实践和对 Tensorflow 项目贡献,整理了一个结合简洁,具备文件夹结构化组织,并且面向对象设计的 Tensorflow 项目模板最佳实践 —— 为高校深度学习与新一代人工智能科研实验室建设以及科研教学平台提供良好的基础支撑。

另一方面,自从 PyTorch 1.0 发布之后,越来越多的人选择使用 PyTorch,今天给大家介绍一个 Github 项目,作者通过自己使用 PyTorch 的实际工程经验,总结出了一套非常有用的使用 PyTorch 的最佳实践,涉及到使用 PyTorch 的方方面面。

本文总结了使用 PyTorch 框架进行深度学习的一年多经验中的最佳实践。请注意,我们分享的经验大多来自研究和创业的视角。这是一个开放的项目,欢迎其他合作者编辑和改进文档。该文档有三个主要部分。首先,简要回顾一下 Python 中的最佳实践,然后介绍一些使用 PyTorch 的技巧和建议。最后,我们分享了一些使用其他框架的见解和经验,这些框架通常对我们改进工作流有帮助。

GitHub地址项目 GitHub 地址

The Car Connection 汽车数据集

关于汽车的项目很多,比如拍照识车、汽车比价等等,尽管这些项目本身难度不大,但是往往受制于数据集的质量,模型的效果不能很好的发挥。Nicolas Gervais 近日发布了一个关于汽车的数据集,数据相当全质量也相当高,为面向汽车工程类的大数据分析机器学习自动驾驶等方向的科研实验室项目,提供有效的支撑帮助。数据集的来源是 The Car Connection 网站,该网站是全球最大的汽车评测网站之一,致力于让汽车研究更加容易。

The Car Connection
The Car Connection

数据集包括 297,000 张图片,但是其中许多是汽车的内部图像,关于汽车的外观大概有 60,000 张照片。所有的文件都对汽车的 15 个参数进行了标注:’Make’, ‘Model’, ‘Year’, ‘MSRP’, ‘Front Wheel Size (in)’, ‘SAE Net Horsepower @ RPM’, ‘Displacement’, ‘Engine Type’, ‘Width, Max w/o mirrors (in)’, ‘Height, Overall (in)’, ‘Length, Overall (in)’, ‘Gas Mileage’, ‘Drivetrain’, ‘Passenger Capacity’, ‘Passenger Doors’, ‘Body Style’

GitHub地址项目 GitHub 地址

2019 年机器学习/ 深度学习热门论文(含代码)

1. 《Contrastive Representation Distillation》

本文在模型蒸馏领域中利用了一系列对比目标来捕获相关性和高阶输出依存关系。在本文中对它们进行了修改,以将知识从一个神经网络提取到另一个。

Contrastive Representation Distillation
Contrastive Representation Distillation

本文考虑了三个蒸馏阶段:

  • 模型压缩
  • 将知识从一种方式(例如:RGB)转移到另一种方式(例如:深度)
  • 将一组网络精简为一个网络

对比学习的主要思想是学习在某个度量空间中对于正例对的表示尽可能接近,同时对于负例对的表示尽可能远。

GitHub地址项目 GitHub 地址

2. 《Network Pruning via Transformable Architecture Search》

这是网络修剪领域的论文。它建议直接将神经体系结构搜索应用于具有灵活通道和层大小的网络。使修剪过的网络的损失最小化有助于学习信道数量。

Nueral Architecture Search (NAS)
Nueral Architecture Search (NAS)

修剪后的网络的特征图由 K 个特征图片段组成,这些片段基于概率分布进行采样。损失反向传播到网络权重和参数化分布。

本文提出的修剪方法分为三个阶段:

  • 使用标准分类训练程序训练未修剪的大型网络。
  • 通过可转换体系结构搜索(TAS)搜索小型网络的深度和宽度。TAS 旨在寻求最佳的网络规模。
  • 使用简单知识提炼(KD)方法将信息从未修剪的网络传输到搜索的小型网络。

GitHub地址项目 GitHub 地址

3. 《Learning Data Augmentation Strategies for Object Detection》

尽管这本身不是模型体系结构,但本文提出了可用于对象检测数据集的转换的创建方法,这些转换可以转移到其他对象检测数据集。转换通常在训练时应用。以下是使用学习到的策略进行训练的代码:

在此模型中,扩充策略定义为在训练过程中随机选择的一组 n 个策略。在此模型中已应用的一些操作包括:扭曲颜色通道,几何扭曲图像以及仅扭曲在边界框注释中找到的像素内容。

GitHub地址项目 GitHub 地址

4. 《XLNet: Generalized Autoregressive Pretraining for Language Understanding》

XLNet 是 Transformer 领域的一篇令人振奋的论文。XLNet 是一种通用的自回归预训练方法,通过最大化在所有因式分解阶数排列上的预期似然性,可以学习双向上下文。它不使用固定的正向或反向分解顺序。取而代之的是,它针对分解阶数的所有可能排列最大化序列的预期对数似然性。这些排列的结果是,每个位置的上下文都可以由左右两个标记组成。由于每个位置都学会了利用所有位置的上下文信息,因此捕获了双向上下文。

GitHub地址项目 GitHub 地址

5. 《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (ACL 2019)》

Transformer-XL(意味着超长)可用于学习超出固定长度的依赖性,而不会破坏时间相干性。它引入了段级递归机制和位置编码方案。TransformerXL 学习的依赖关系比 RNN 长 80%,比朴素 Transformers 长 450%。TensorFlowPyTorch 均可用。

作者将递归引入其深层的自注意力网络。他们重用了先前分段中获得的隐藏状态,而不是从头开始为每个新段计算隐藏状态。重用的隐藏状态充当循环段的内存。

这在段之间建立了循环连接。建模长期依赖关系成为可能,因为信息是通过循环连接传递的。作者还介绍了一种更有效的相对位置编码方式,该方式可以将注意力集中到比训练过程中观察到的注意长度更长的位置。

GitHub地址项目 GitHub 地址

6. 《Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos (AAAI 2019)》

本文涉及场景深度和机器人自我运动的无监督学习任务,其中监督由单目视频提供。这是通过将几何结构引入学习过程来完成的。它涉及对场景和单个对象,相机的自我运动以及从单眼视频输入中获悉的对象运动进行建模。作者还介绍了一种在线优化方法。

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

作者介绍了一种对象运动模型,该模型与自我运动网络共享相同的体系结构。但是,它专门用于预测 3D 中单个对象的运动。

它以 RGB 图像序列作为输入。预先计算的实例分段掩码对此进行了补充。运动模型的工作是学习预测 3D 空间中每个对象的变换矢量。这将在各个目标框中创建观察到的对象外观。

GitHub地址项目 GitHub 地址

7. 《Auto-Keras: An Efficient Neural Architecture Search System》

本文提出了一个框架,使贝叶斯优化能够为有效的 NAS 引导网络形态。基于他们的方法,作者构建了一个称为 Auto-Keras 的开源 AutoML 系统。

该方法的主要组成部分是在贝叶斯优化(BO)算法的指导下,通过变形神经网络结构来探索搜索空间。由于 NAS 空间不是欧几里德空间,因此作者通过设计神经网络核函数来解决这一难题。核函数是用于将一种神经体系结构变形为另一种神经体系结构的编辑距离。

GitHub地址项目 GitHub 地址

8. 《Depth-Aware Video Frame Interpolation (CVPR 2019)》

本文提出了一种视频帧插值方法,该方法通过探索深度信息来检测遮挡。作者开发了一个深度感知流投影层,该层可以合成对较近的对象进行采样的即时流,而不是对较远的对象进行采样。

DAIN (Depth-Aware Video Frame Interpolation)
DAIN (Depth-Aware Video Frame Interpolation)

层次特征的学习是通过从相邻像素收集上下文信息来完成的。然后通过基于光流和局部插值核对输入帧,深度图和上下文特征进行综合来生成输出帧。

作者提出了一种深度感知视频帧内插(DAIN)模型,该模型可有效利用光流,局部插值核,深度图和上下文特征来生成高质量的视频帧。

GitHub地址项目 GitHub 地址

9. 《OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》

OpenPose 是用于多人 2D 姿势估计的开源实时系统,包括身体,脚,手和面部关键点。本文提出了一种用于检测图像和视频中的 2D 人体姿势的实时方法。

OpenPose represents the first real-time multi-person system to jointly detect human body, hand, facial, and foot keypoints (in total 135 keypoints) on single images.
OpenPose represents the first real-time multi-person system to jointly detect human body, hand, facial, and foot keypoints (in total 135 keypoints) on single images.

本文提出的方法使用了一种称为Part Affinity Fields(PAF)的非参数表示。本文的一些作者来自 IEEE。此方法将图像作为 CNN 的输入,并预测用于检测身体部位的置信度图和用于部位关联的 PAF。本文还开源了带有 15K 人脚实例的带注释脚数据集

GitHub地址项目 GitHub 地址

10. 《FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation》

本文提出了一种称为联合金字塔上采样(JPU)的联合上采样模块,以取代消耗大量时间和内存的膨胀卷积。它通过将提取高分辨率图的过程公式化为联合上采样问题而起作用。

联合金字塔上采样(JPU)
联合金字塔上采样(JPU)

该方法以全连接网络(FCN)为骨干,同时应用 JPU 对低分辨率的最终特征图进行上采样,从而得到高分辨率的特征图。用 JPU 取代膨胀的卷积不会导致性能损失。

GitHub地址项目 GitHub 地址

新一代 MNIST 数据集 – QMNIST

在机器学习研究中,MNIST 手写数字图像数据集已经作为基准使用了二十余年。该数据集虽然经典,但也存在测试集过小等问题。近日,来自 Facebook 和纽约大学的研究者重建并扩展了该数据集,在测试集中新增了 50,000 个样本。MNIST 作者之一的 Yann LeCun 在推特中表示

如果多次使用原版的 MNIST 测试集,你的模型可能在测试集上已经过拟合了。是时候在新增的样本上试一下了。

MNIST 数据集
MNIST 数据集

MNIST 是一个由 Yann Lecun 等人创建的手写数字图像数据集,是研究者研究机器学习、模式识别等任务的高质量数据库。它包含训练集和测试集,训练集包含 60,000 个样本,测试集包含 10,000 个样本。

MNIST 数据集抽取自 NIST 数据库。NIST 手写字符集第一个分区的发布要早一年,其训练集是由 2,000 名人口普查局雇员手写的,而测试集更加有挑战性,是由 500 名在校生手写的。

LeCun、Cortes 和 Burges 的其中一个目的是创建一个分布相似的训练集和测试集。据他们描述,这个过程产生了两个 60,000 个样本的集合。然后通过下采样将测试集样本数降低到 10,000 个,可能是因为用当时的电脑处理这样一个数据集会非常慢。剩余的 50,000 个样本从此就丢失了。

20 多年来,MNIST 数据集都被认为是标准的机器学习基准。在过去的十年来,许多研究者都表达过这个数据集已经被过度使用的观点。尤其是其测试集过小,只有 10,000 样本,这引起了很多担忧。数以百计的论文都依据这同一个测试集,得到的性能越来越高。那么模型是否已经在测试集上过拟合?我们还能否相信在该数据集上取得的新结论?机器学习数据集到底能用多久?

为了解决原版 MNIST 测试集过小等问题,来自 Facebook 和研究者决定重建该数据集。QMNIST 的 GitHub 页上提供了 Pytorch 平台的 QMNIST 数据加载器,需要将数据集下载至与 pytorch.py 相同的文件夹下将网络下载选项设置为 download=’True’。

from qmnist import QMNIST

# the qmnist training set, download from the web if not found
qtrain = QMNIST('_qmnist', train=True, download=True)

# the qmnist testing set, do not download.
qtest = QMNIST('_qmnist', train=False)

# the first 10k of the qmnist testing set with extended labels
# (targets are a torch vector of 8 integers)
qtest10k = QMNIST('_qmnist', what='test10k', compat=False, download='True')

# all the NIST digits with extended labels
qall = QMNIST('_qmnist', what='nist', compat=False)

它与标准的 Pytorch MNIST 数据加载器兼容。

GitHub地址项目 GitHub 地址

NLP 科研现状更新

一、资源简介

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

中科院自动化研究所自然语言处理团队负责人宗成庆研究员的报告从学科产生与发展、技术挑战、基本方法、应用举例、技术现状等多个视角对自然语言处理领域进行了全面梳理,以及对该学科未来发展方向的分析和展望。我们希望这份报告能够帮助读者了解学科发展的脉络,激发研究兴趣,思考核心问题,领悟未来走向。

作者团队主要研究方向包括自然语言处理基础任务、机器翻译、知识图谱、信息抽取、问答系统、情感分类、基于多模态信息融合的自然语言处理、类脑启发的自然语言处理方法研究等,在上述各方向上都进行了深入研究和探索,产出了一批优秀成果,包括三部专著:《统计自然语言处理》、《文本数据挖掘》和《知识图谱》。对该学科未来发展的趋势和方向进行了简要分析和展望。

二、主要内容目录

PPT 的提纲为:

  1. 学科产生与发展
  2. 技术挑战
  3. 基本方法
  4. 应用举例
  5. 技术现状
  6. 我们团队

三、资源分享

同时为了方便大家,我们把最新 《自然语言处理方法与应用》PDF 打包好了,可以直接下载。