2019 年机器学习/ 深度学习热门论文(含代码)

1. 《Contrastive Representation Distillation》

本文在模型蒸馏领域中利用了一系列对比目标来捕获相关性和高阶输出依存关系。在本文中对它们进行了修改,以将知识从一个神经网络提取到另一个。

Contrastive Representation Distillation
Contrastive Representation Distillation

本文考虑了三个蒸馏阶段:

  • 模型压缩
  • 将知识从一种方式(例如:RGB)转移到另一种方式(例如:深度)
  • 将一组网络精简为一个网络

对比学习的主要思想是学习在某个度量空间中对于正例对的表示尽可能接近,同时对于负例对的表示尽可能远。

GitHub地址项目 GitHub 地址

2. 《Network Pruning via Transformable Architecture Search》

这是网络修剪领域的论文。它建议直接将神经体系结构搜索应用于具有灵活通道和层大小的网络。使修剪过的网络的损失最小化有助于学习信道数量。

Nueral Architecture Search (NAS)
Nueral Architecture Search (NAS)

修剪后的网络的特征图由 K 个特征图片段组成,这些片段基于概率分布进行采样。损失反向传播到网络权重和参数化分布。

本文提出的修剪方法分为三个阶段:

  • 使用标准分类训练程序训练未修剪的大型网络。
  • 通过可转换体系结构搜索(TAS)搜索小型网络的深度和宽度。TAS 旨在寻求最佳的网络规模。
  • 使用简单知识提炼(KD)方法将信息从未修剪的网络传输到搜索的小型网络。

GitHub地址项目 GitHub 地址

3. 《Learning Data Augmentation Strategies for Object Detection》

尽管这本身不是模型体系结构,但本文提出了可用于对象检测数据集的转换的创建方法,这些转换可以转移到其他对象检测数据集。转换通常在训练时应用。以下是使用学习到的策略进行训练的代码:

在此模型中,扩充策略定义为在训练过程中随机选择的一组 n 个策略。在此模型中已应用的一些操作包括:扭曲颜色通道,几何扭曲图像以及仅扭曲在边界框注释中找到的像素内容。

GitHub地址项目 GitHub 地址

4. 《XLNet: Generalized Autoregressive Pretraining for Language Understanding》

XLNet 是 Transformer 领域的一篇令人振奋的论文。XLNet 是一种通用的自回归预训练方法,通过最大化在所有因式分解阶数排列上的预期似然性,可以学习双向上下文。它不使用固定的正向或反向分解顺序。取而代之的是,它针对分解阶数的所有可能排列最大化序列的预期对数似然性。这些排列的结果是,每个位置的上下文都可以由左右两个标记组成。由于每个位置都学会了利用所有位置的上下文信息,因此捕获了双向上下文。

GitHub地址项目 GitHub 地址

5. 《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (ACL 2019)》

Transformer-XL(意味着超长)可用于学习超出固定长度的依赖性,而不会破坏时间相干性。它引入了段级递归机制和位置编码方案。TransformerXL 学习的依赖关系比 RNN 长 80%,比朴素 Transformers 长 450%。TensorFlowPyTorch 均可用。

作者将递归引入其深层的自注意力网络。他们重用了先前分段中获得的隐藏状态,而不是从头开始为每个新段计算隐藏状态。重用的隐藏状态充当循环段的内存。

这在段之间建立了循环连接。建模长期依赖关系成为可能,因为信息是通过循环连接传递的。作者还介绍了一种更有效的相对位置编码方式,该方式可以将注意力集中到比训练过程中观察到的注意长度更长的位置。

GitHub地址项目 GitHub 地址

6. 《Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos (AAAI 2019)》

本文涉及场景深度和机器人自我运动的无监督学习任务,其中监督由单目视频提供。这是通过将几何结构引入学习过程来完成的。它涉及对场景和单个对象,相机的自我运动以及从单眼视频输入中获悉的对象运动进行建模。作者还介绍了一种在线优化方法。

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

作者介绍了一种对象运动模型,该模型与自我运动网络共享相同的体系结构。但是,它专门用于预测 3D 中单个对象的运动。

它以 RGB 图像序列作为输入。预先计算的实例分段掩码对此进行了补充。运动模型的工作是学习预测 3D 空间中每个对象的变换矢量。这将在各个目标框中创建观察到的对象外观。

GitHub地址项目 GitHub 地址

7. 《Auto-Keras: An Efficient Neural Architecture Search System》

本文提出了一个框架,使贝叶斯优化能够为有效的 NAS 引导网络形态。基于他们的方法,作者构建了一个称为 Auto-Keras 的开源 AutoML 系统。

该方法的主要组成部分是在贝叶斯优化(BO)算法的指导下,通过变形神经网络结构来探索搜索空间。由于 NAS 空间不是欧几里德空间,因此作者通过设计神经网络核函数来解决这一难题。核函数是用于将一种神经体系结构变形为另一种神经体系结构的编辑距离。

GitHub地址项目 GitHub 地址

8. 《Depth-Aware Video Frame Interpolation (CVPR 2019)》

本文提出了一种视频帧插值方法,该方法通过探索深度信息来检测遮挡。作者开发了一个深度感知流投影层,该层可以合成对较近的对象进行采样的即时流,而不是对较远的对象进行采样。

DAIN (Depth-Aware Video Frame Interpolation)
DAIN (Depth-Aware Video Frame Interpolation)

层次特征的学习是通过从相邻像素收集上下文信息来完成的。然后通过基于光流和局部插值核对输入帧,深度图和上下文特征进行综合来生成输出帧。

作者提出了一种深度感知视频帧内插(DAIN)模型,该模型可有效利用光流,局部插值核,深度图和上下文特征来生成高质量的视频帧。

GitHub地址项目 GitHub 地址

9. 《OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》

OpenPose 是用于多人 2D 姿势估计的开源实时系统,包括身体,脚,手和面部关键点。本文提出了一种用于检测图像和视频中的 2D 人体姿势的实时方法。

OpenPose represents the first real-time multi-person system to jointly detect human body, hand, facial, and foot keypoints (in total 135 keypoints) on single images.
OpenPose represents the first real-time multi-person system to jointly detect human body, hand, facial, and foot keypoints (in total 135 keypoints) on single images.

本文提出的方法使用了一种称为Part Affinity Fields(PAF)的非参数表示。本文的一些作者来自 IEEE。此方法将图像作为 CNN 的输入,并预测用于检测身体部位的置信度图和用于部位关联的 PAF。本文还开源了带有 15K 人脚实例的带注释脚数据集

GitHub地址项目 GitHub 地址

10. 《FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation》

本文提出了一种称为联合金字塔上采样(JPU)的联合上采样模块,以取代消耗大量时间和内存的膨胀卷积。它通过将提取高分辨率图的过程公式化为联合上采样问题而起作用。

联合金字塔上采样(JPU)
联合金字塔上采样(JPU)

该方法以全连接网络(FCN)为骨干,同时应用 JPU 对低分辨率的最终特征图进行上采样,从而得到高分辨率的特征图。用 JPU 取代膨胀的卷积不会导致性能损失。

GitHub地址项目 GitHub 地址