今年 2 月 22 日,知名的 DarkNet 和 YOLO 系列作者 Joseph Redmon 宣布退出 CV 界面,这也就意味着 YOLOv3 不会再有官方更新了。但是,CV 领域进步的浪潮仍在滚滚向前,仍然有人在继续优化 YOLOv3。今日,著名的 AlexeyAB 版本发布了 YOLOv4 的论文。该论文提出了五大改进,二十多个技巧的实验。
目前,工业界常用的目标检测算法,SSD 是 2015年发表的,RetinaNet、 Mask R-CNN、Cascade R-CNN 是 2017 年发表的,YOLOv3 是 2018 年发表的。时光荏苒,过去的五年,深度学习也在不断更新,从激活函数上,到数据增强,到网络结构,都有大量的创新。而 YOLOv4 这项工作, 可以说是既往开来。
这篇文章试验对比了大量的近几年来最新的深度学习技巧,例如 Swish、Mish 激活函数,CutOut 和 CutMix 数据增强方法,DropPath 和 DropBlock 正则化方法,也提出了自己的创新,例如 Mosaic (马赛克) 和 自对抗训练数据增强方法,提出了修改版本的 SAM 和 PAN,跨 Batch 的批归一化(BN),共五大改进。所以说该文章工作非常扎实,也极具创新。
而且作者也在文中多次强调,这是一个平衡精度和速度的算法,大的模型,例如 Mask-RCNN 和 Cascade R-CNN 在比赛中可以霸榜,但速度太慢;小的模型速度快,但精度又不高。另外,当今的不少模型因为太大,需要很多GPU 进行并行训练,而 YOLOv4 可以在一块普通的GPU(1080Ti)上完成训练,同时能够达到实时性,从而能够在生产环境中部署。