2020 年人脸识别数据集汇总

面向深度学习的人脸识别,是指能够识别或验证图像或视频中的主体的身份的技术。现今,现在相比于指纹或虹膜识别等传统上被认为更加稳健的生物识别方法,人们往往更偏爱人脸识别。让人脸识别比其它生物识别方法更受欢迎的一大不同之处是人脸识别本质上是非侵入性的。《人脸识别》课程将通过大量有趣的实验案例,让学生充分了解人脸识别的各项关键技术,包括:人脸定位,人脸关键点识别,人脸识别等。这里提供2020 年 16 套人脸识别数据集汇总,可用于人工智能实验室建设科研分析与教学应用。

Japanese Female Facial Expression
Japanese Female Facial Expression

1. The Japanese Female Facial Expression (JAFFE) Database

该数据库是由 10 位日本女性在实验环境下根据指示做出各种表情,再由照相机拍摄获取的人脸表情图像。整个数据库一共有 213 张图像,10 个人,全部都是女性,每个人做出 7 种表情,这 7 种表情分别是:悲伤,快乐,愤怒,厌恶,惊讶,恐惧,中立。每个人为一组,每一组都含有 7 种表情,每种表情大概有 3, 4 张样图。

2. PubFig: Public Figures Face Database

哥伦比亚大学公众人物脸部数据库(PubFig),这是哥伦比亚大学的公众人物脸部数据集,包含有 200 个人的 58k+ 人脸图像,主要用于非限制场景下的人脸识别。

PubFig - Public Figures Face Database
PubFig – Public Figures Face Database

3. Large-scale CelebFaces Attributes (CelebA) Dataset

这是由香港中文大学汤晓鸥教授实验室公布的大型人脸识别数据集。该数据集包含有 200K 张人脸图片,人脸属性有 40 多种,主要用于人脸属性的识别。

Large-scale CelebFaces Attributes (CelebA) Dataset
Large-scale CelebFaces Attributes (CelebA) Dataset

4. color FERET Database V2

为促进人脸识别算法的研究和实用化,美国国防部的 Counterdrug Technology Transfer Program (CTTP) 发起了一个人脸识别技术(Face Recognition Technology 简称:FERET)工程,它包括了一个通用人脸库以及通用测试标准。到 1997 年,它已经包含了 1,000 多人的 10,000 多张照片,每个人包括了不同表情,光照,姿态和年龄的照片。

5. Facial Landmark Detection by Deep Multi-task Learning

该数据集包含了将近 13,000 张人脸图片,均采自网络。

Facial Landmark Detection by Deep Multi-task Learning
Facial Landmark Detection by Deep Multi-task Learning

6. The BioID Face Database

这个数据集包含了 1,521 幅分辨率为 384 x 286 像素的灰度图像。每一幅图像来自于 23 个不同的测试人员的正面角度的人脸。为了便于做比较,这个数据集也包含了对人脸图像对应的手工标注的人眼位置文件。

The BioID Face Database
The BioID Face Database

7. Labeled Faces in the Wild Home

LFW 数据集是为了研究非限制环境下的人脸识别问题而建立的。这个数据集包含超过 13,000 张人脸图像,均采集于 Internet。每个人脸均被标准了一个人名。其中,大约 1,680 个人包含两个以上的人脸。这个集合被广泛应用于评价 Face Verification 算法的性能。

Labeled Faces in the Wild Home
Labeled Faces in the Wild Home

8. Semi-supervised Learning with Constraints for Person Identification in Multimedia Data

该数据集所选用的人脸照片均来自于两部比较知名的电视剧,《吸血鬼猎人巴菲》和《生活大爆炸》。

9. The CMU Multi-PIE Face Database

CMU PIE 人脸库建立于 2000 年 11 月,它包括来自 68 个人的 40,000 张照片,其中包括了每个人的 13 种姿态条件,43 种光照条件和 4 种表情下的照片,现有的多姿态人脸识别的文献基本上都是在 CMU PIE 人脸库上测试的。

10. YouTube Faces DB

YouTube Video Faces 是用来做人脸验证的。在这个数据集下,算法需要判断两段视频里面是不是同一个人。有不少在照片上有效的方法,在视频上未必有效/高效。

YouTube Faces DB
YouTube Faces DB

11. CASIA-FaceV5

该数据集包含了来自 500 个人的 2,500 张亚洲人脸图片。

12. Face Place

该数据集采集了 200 个人在不同状态下(不同的神情,装扮,发型等)的人脸照片。

Face Place
Face Place

13. CASIA-3D FaceV1

该数据集包含了来自 123 个人的 4,624 张人脸图片,所有图片均由下图的仪器进行拍摄。

14. IMDB-WIKI – 500k+ face images with age and gender labels

IMDB-WIKI 人脸数据库是有 IMDB 数据库和 Wikipedia 数据库组成,其中 IMDB 人脸数据库包含了 460,723 张人脸图片,而 Wikipedia 人脸数据库包含了 62,328 张人脸数据库,总共 523,051 张人脸数据库,IMDB-WIKI 人脸数据库中的每张图片都被标注了人的年龄和性别,对于年龄识别和性别识别的研究有着重要的意义。

IMDB-WIKI – 500k+ face images with age and gender labels
IMDB-WIKI – 500k+ face images with age and gender labels

15. Face Detection Data Set and Benchmark Home

FDDB 是 UMass 的数据集,被用来做人脸检测(Face Detection)。这个数据集比较大,比较有挑战性。而且作者提供了程序用来评估检测结果,所以在这个数据上面比较算法也相对公平。

16. Caltech 10,000 Web Faces

数据集包含通过在谷歌图像搜索中输入常见的人名从网上收集的人的图像。每个正面面孔的眼睛、鼻子和嘴巴中心的坐标在 ground truth 文件中提供。这些信息可以用来对齐和裁剪人脸,或者作为人脸检测算法的基础事实。数据集有 10,524 张不同分辨率和不同设置的人脸,如人像图像、人群等。侧面或非常低分辨率的面没有标记。