第一作者简介:
张珂, 1980年生, 男, 副教授, 博士, 主要研究方向为生物特征识别、计算机视觉、深度学习。E-mail:
[email protected]
;
王新胜, 男, 硕士研究生, 主要研究方向为生物特征识别。E-mail:
[email protected]
;
郭玉荣, 女, 硕士研究生, 主要研究方向为深度学习、图像分类。E-mail:
[email protected]
;
苏昱坤, 男, 硕士研究生, 主要研究方向为生物特征识别。E-mail:
[email protected]
;
何颖宣, 男, 硕士研究生, 主要研究方向为深度学习、目标检测。E-mail:
[email protected]
.
中图法分类号: TP301.6
文献标识码: A
文章编号: 1006-8961(2019)08-1215-16
人脸年龄估计技术作为一种新兴的生物特征识别技术,已经成为计算机视觉领域的重要研究方向之一。随着深度学习的飞速发展,基于深度卷积神经网络的人脸年龄估计技术已成为研究热点。
方法
本文以基于深度学习的真实年龄和表象年龄估计方法为研究对象,通过调研文献,分析了基于深度学习的人脸年龄估计方法的基本思想和特点,阐述其研究现状,总结关键技术及其局限性,对比了常见人脸年龄估计方法的性能,展望了未来的发展方向。
结果
尽管基于深度学习的人脸年龄估计研究取得了巨大的进展,但非受限条件下年龄估计的效果仍不能满足实际需求,主要因为当前人脸年龄估计研究仍存在以下困难:1)引入人脸年龄估计的先验知识不足;2)缺少兼顾全局和局部细节的人脸年龄估计特征表达方法;3)现有人脸年龄估计数据集的限制;4)实际应用环境下的多尺度人脸年龄估计问题。
结论
基于深度学习的人脸年龄估计技术已取得显著进展,但是由于实际应用场景复杂,容易导致人脸年龄估计效果不佳。对目前基于深度学习的人脸年龄估计技术进行全面综述,从而为研究者解决存在的问题提供便利。
Objective
As an important part of human biometrics, age information has extensive application prospects in the fields of security monitoring, human-computer interaction, and video retrieval. As an emerging biometric recognition technology, age estimation technology based on face image is an important research subject in the fields of computer vision and face analysis. With the fast development of deep learning, the face age estimation method based on deep convolutional neural network has become a research hotspot in these fields.
Method
Real and apparent age estimation methods based on deep learning are reviewed based on extensive research and the latest achievements of relevant literature. The basic ideas and characteristics of various methods are analyzed. The research status, key technologies, and limitations based on various age estimation methods are summarized. The performance of various methods on common age estimation datasets is compared. Finally, existing major research problems are summarized and discussed, and potential future research directions are presented.
Result
Face age estimation can be divided into real and apparent age estimation according to the subjectivity and objectivity of age labeling, and it can be divided into age group estimation and age value estimation according to the accuracy of age labeling. With the deep convolutional neural network (DCNN) becoming a hotspot in the field of computer vision, from 5-conv 3-fc's AlexNet 33 to 16-conv 3-fc's VGG-19 network and from 21-conv 1-fc's GoogleNet to thousands of layers of ResNets, the learning ability and the depth of the network have improved considerably. An increasing number of face age estimation researchers are focusing on face age estimation based on DCNN with powerful feature extraction and learning capabilities. According to different views, face age estimation methods based on deep learning can be roughly divided into three categories:regression model, multi-class classification, and rank model. Regression model uses regression analysis to achieve age estimation by establishing a functional model that characterizes the age variation of faces. Regression-based age estimation methods may be affected by overfitting due to the randomness in the aging process and the fuzzy mapping between the appearance of the face and its actual age. The age of a person can be easily divided into several age groups. Age group estimation under unconstrained conditions has become a current research topic, and the multi-classification model is the main means of achieving age group estimation because the regression-based age estimation model has difficulty achieving convergence. Moreover, age group classification can meet the needs of most practical applications. The age estimation model based on the rank model regards the age label as a data sequence and converts the age estimation problem into a problem in which the age to be estimated is greater or less than a certain age, thereby transforming the age estimation problem into a series of binary classification problems. Other technologies in the field of computer vision are applied in face age estimation. Although various deep learning-based face age estimation methods have achieved considerable progress, the performance of age estimation fails to meet the practical needs of unconstrained age estimation because current face age estimation research continues to face the following difficulties and challenges:1) insufficient prior knowledge introduced to face age estimation methods; 2) lack of face age estimation feature representation that considers global and local details; 3) the limitations of existing face age estimation datasets; and 4) multi-scale face age estimation problems in practical application environments.
Conclusion
Deep learning-based face age estimation methods have achieved considerable progress, but they perform poorly due to the complexity of actual application scenarios. A comprehensive review of the current deep learning-based face age estimation techniques is needed to help researchers solve existing problems. Age estimation techniques based on face images are expected to play an important role in the future with the continued efforts of researchers and the in-depth development of related technologies.
人脸图像中存在着大量有用的信息,如年龄、性别、身份、种族、情绪等
[
1
]
,所以人脸图像分析的相关技术研究已成为计算机视觉领域的关注重点。而年龄作为人类一种重要的生物及社会特征,其在人的社会交往中起到了基础性作用。人脸年龄估计是指针对含有人脸的图像,预测出图像中人脸对应的年龄。近年来,随着安装在公共场所的监控设备数量高速增长,使得人脸年龄估计问题与现实需求密切相关,并在跨年龄人脸识别、智能安全监控、和谐人机交互、图像及视频检索、人脸年龄面貌预测以及市场营销分析等多个智能领域存在良好的应用前景
[
2
-
5
]
。
现有的人脸图像年龄估计综述
[
1
-
2
,
6
]
均是围绕着传统方法进行阐述的。传统人脸年龄估计方法首先对人脸年龄特征进行提取,进而采用分类和回归模型进行人脸年龄估计。然而传统方法提取出的年龄特征,如生物启发特征(BIF)
[
7
]
、尺度不变特征变化(SIFT)
[
8
]
等在受限条件下如MORPH数据集
[
9
]
中虽然取得了不错的效果,但是这些年龄特征在非受限条件下的人脸图像年龄估计任务中显得力不从心,如非受限条件下的Adience数据集
[
10
]
,示例图像如
图 1
所示。该数据集中所有的人脸图像采集设备均为手机相机,且未采用人工方式对图像进行过滤和处理。目前其年龄组估计准确率仅有60%左右,这是由于非受限条件下人脸图像中所包含的各种变化(光照、化妆、遮挡、角度等)为人脸图像年龄估计带来了新的挑战。
基于人脸图像的年龄估计是利用计算机技术建模图像中人脸年龄变化的规律,使模型依照人脸图像输出人脸年龄或归属范围。已知一幅人脸图像,人脸年龄估计的流程可以分为以下几个阶段:
1) 获取人脸年龄数据集;
2) 人脸检测与定位,指检测并定位出所给图像中的人脸;
3) 年龄特征提取,目的在于从人脸图像中提取表征年龄的特征值,为年龄估计提供可使用的特征,有效的年龄特征可以有效地提高人脸年龄估计的性能;
4) 年龄估计,将前一阶段获得的年龄特征通过机器学习算法训练年龄估计模型,用于人脸年龄估计;
5) 估计性能评价
[
6
]
,为了验证年龄估计方法的有效性,需要设定有效的性能指标对其进行验证,所以对年龄估计算法进行性能方面的评估是研究人脸年龄估计时不可或缺的环节。
由于人脸检测与定位技术已经成为计算机视觉中一个较为独立的研究方向,因此本文将针对人脸年龄估计问题的其他阶段总结基于深度学习的人脸年龄估计技术的研究现状。
2 常见人脸年龄估计数据集
在人脸年龄估计问题中,创建具有不同年龄或年龄段高质量图像的人脸年龄估计数据集是必不可少的。人脸年龄估计可根据年龄标注的主客观性分为真实年龄估计和表象年龄估计;根据年龄标注的精确度,分为年龄组估计和年龄值估计。下面总结了几种常见的人脸年龄估计数据集。
1) FG-NET
[
11
]
。FG-NET(the face and gesture recognition network aging dataset)数据集共收集了受限条件下拍摄的1 002幅彩色和灰度人脸图像,其中共包含82个人,平均每人有12幅图像。年龄范围为0~69岁,年龄标注类型为年龄值,是目前包含最年轻人群的真实年龄数据集之一。
图 2
为FG-NET数据集示例图像。由于FG-NET数据集大小的局限性,该数据集采用留一验证(LOOCV)的方式划分训练集和测试集,即在全部82人中随机将1人的全部图像视为测试集,余下的图像作为训练集。
2) MORPH
[
9
]
。MORPH数据集是由北卡罗来纳大学人脸年龄组收集的受限条件下的真实年龄数据集。该数据集分为两个部分:Album 1和Album 2。Album 1数据集中包含共1 690幅图像,来自515人,获取时间跨度为1962~1998年,年龄范围为15~68岁,年龄标注类型为年龄值;Album 2数据集中包含55 134幅图像,来自13 618人,获取时间跨度为2003~2007年,年龄范围为16~77岁,年龄标注类型为年龄值。
图 3
为MORPH Album 2数据集示例图像。因为Album 2图像数量多于Album 1图像数量,所以大多数人脸年龄估计研究采用Album 2进行实验。MORPH数据集使用k-折交叉验证(k-fold cross)的方法划分训练集和测试集。
3)CACD
[
12
]
。CACD(the cross-age celebrity dataset)数据集从网站上共收集了163 466幅图像,共包含2 000个名人,获取时间为2004~2013年,年龄范围为0~100岁,年龄标注类型为年龄值,属于真实年龄数据集。
图 4
为CACD数据集示例图像。CACD数据集共分为3部分,训练集中包括1 800个名人的图像,验证集中包括80个名人的图像,测试集中包括120个名人的图像。
5) Adience
[
10
]
。Adience数据集从图像分享网站Flickr中收集到了2 284个人共26 580幅带有年龄组和性别标注的人脸图像,年龄范围为0~100岁,标注类型为年龄组,共分为8个年龄段(0~2、4~6、8~13、15~20、25~32、38~43、48~53、60~100)。该数据集属于真实年龄数据集。Adience数据集使用5-折交叉验证(5-fold cross-validation)的方法进行训练集和测试集的划分,即将全部图像随机分为5个子集(fold_0fold_4),每次选取其中4个子集作为训练集,剩余1个子集作为测试集。该步骤重复5次,并将5次估计的平均准确率作为年龄估计结果。
6) IoG
[
14
]
。IoG (image of group)数据集同样来源于图片分享网站Flickr,共收集了5 080幅带有年龄组和性别标注的人脸图像,图像中共计28 231张人脸。年龄分布为0~66岁以上,共分为8个年龄段(0~2、3~7、8~12、13~19、20~36、37~65、66+)。该数据集属于真实年龄估计数据集。
7) LAP
[
15
-
16
]
。表象年龄估计是人脸识别和人脸年龄估计领域新的主题。与真实年龄估计不同,表象年龄更侧重于从人脸表面“看到”的年龄,即人的主观印象。表象年龄估计受若干因素的影响,包括人的实际年龄、化妆、表情,以及其他生理或社会因素引起的“衰老”,这些因素会导致估计的表象年龄与实际年龄产生较大的偏差,增加表象年龄估计的难度。大多数可用的人脸年龄估计数据集
[
9
-
14
]
只包含真实年龄标签,原因在于收集表象年龄时需要针对每张人脸获得多个标注者的主观标注,费时费力,所以大多数年龄估计研究方向为真实年龄估计。在ICCV2015和CVPR2016两届顶级计算机视觉会议中,ChaLearn Looking at People项目组举办了两届ChaLearn Looking at People人脸表象年龄估计挑战赛(ChaLearn LAP Challenge),提出并使用了LAP2015
[
15
]
和LAP2016
[
16
]
人脸表象年龄估计数据集。LAP2015利用AgeGuess平台,从网络收集了带有主观年龄标记值的4 699幅图像,年龄范围为0~100岁,其中2 476幅图像作为训练集,1 136幅图像作为验证集,1 087幅图像作为测试集。LAP2016利用AgeGuess平台,从网络收集了带有主观年龄值标记的7 591幅图像,年龄范围为0~100岁,其中4 113幅图像用于训练,1 500幅图像用于验证,1 979幅图像用于测试。LAP是目前最大的表象年龄估计数据集,每一个年龄标注都是10人以上主观年龄值标注的平均值,并同时标注了年龄估值的方差。
8) APPA-REAL
[
17
]
。APPA-REAL数据集是第1个同时具有真实年龄标注和表象年龄标注的数据集。该数据集与LAP数据集相同,利用AgeGuess平台收集人脸图像的年龄标注。该数据集共包含7 591幅具有真实年龄标注和表象年龄标注的人脸图像,年龄范围为0~95岁。与LAP数据集相比,APPA-REAL数据集中每幅图像至少有30人进行标注,平均每幅图像有38人进行标注。APPA-REAL数据集共分为3部分,训练集共4 113幅图像,验证集共1 500幅图像,测试集共1 978幅图像。
表 1
总结并对比了上述常见已公开的人脸年龄估计数据集。从
表 1
中不难看出,人脸年龄估计数据集的关注重点逐渐转向非受限条件下年龄估计和表象年龄估计。然而与人脸识别等传统人脸数据集相比,人脸年龄估计数据集规模较小,尽管IMDB-WIKI是目前最大规模的人脸年龄估计数据集,但是存在以下问题:1) IMDB-WIKI数据集来源于信息量巨大的互联网,与其他人脸年龄数据集相比,其图像质量良莠不齐,图像类型五花八门,包括动漫画人物图像、全身图像或空白图像。
图 6
为IMDB-WIKI数据集中低质量图像。这些图像加大了人脸年龄估计的难度,对估计效果有一定影响;2)数据集中部分人脸图像标注年龄与人脸实际年龄具有较大差距,其中年龄在1~10岁的人脸图像误标注现象比较严重,这些误标注的人脸图像会影响人脸年龄估计的性能;3) IMDB-WIKI数据集并没有划分训练集和验证集,通常用于数据预训练。所以收集和建立大规模、高质量的非受限条件下的人脸年龄估计数据集是非常必要的。
人脸年龄估计的基本思路是利用人脸图像中蕴含的年龄相关特征对人脸进行年龄估计。在早期人脸年龄估计研究内,大部分研究均手工设计人脸年龄相关特征。Kwon等人
[
18
]
最先提出将人脸几何特征引入人脸年龄估计中;Cootes等人
[
19
]
提出了主动外观模型(AAM),该模型将人脸全局纹理特征引入几何特征进行人脸年龄估计;此外,Gabor
[
20
]
、局部二值模式(LBP)
[
21
]
、空间柔性块(SFP)
[
22
]
以及生物启发特征(BIF)
[
7
]
等多种人脸特征被引入年龄估计研究中。在此基础上,研究人员将回归与分类方法应用于人脸年龄估计中。针对年龄组分类,支持向量机(SVM)
[
7
,
10
]
被广泛使用;年龄值回归方面,一系列机器学习领域的传统算法受到青睐,包括但不限于支持向量回归(SVR)
[
5
]
、偏最小二乘法回归(PLSR
[
23
]
)和典型相关分析(CCA)
[
24
]
等算法。这些算法在小规模受限条件下的人脸图像年龄估计数据集上获得了不错的效果,例如FG-NET、MORPH数据集等。而为了满足实际应用的需求,人脸年龄估计数据集的规模逐渐增大,关注点从受限条件下的人脸年龄估计逐渐过渡到非受限条件下人脸年龄估计。然而传统算法在非受限条件下人脸年龄数据集中的表现并不尽如人意,如何提高非受限条件下人脸年龄估计的性能成为人脸年龄估计面临的首要问题之一。
近年来,深度卷积神经网络(DCNN)深受计算机视觉领域研究人员的喜爱
[
25
-
26
]
。从包含5层卷积层和3层全连接层的AlexNet
[
27
]
到包含16个卷积层和3层全连接层的VGG-19网络
[
28
]
,从21个卷积层和1个全连接层的GoogleNet网络
[
29
]
,再到上千层的ResNets网络
[
30
]
,DCNN从层数到对特征的学习能力均有显著提高。大量人脸年龄估计研究人员将目光转向利用深度卷积神经网络强大的特征提取和学习能力进行受限条件和非受限条件下的人脸年龄估计,并取得了显著的研究进展。本节总结现有的研究成果,并将现有的基于深度学习的人脸年龄估计方法分为3类:回归模型(regression model)、多分类模型(multi-class classification model)和排序模型(rank model),并分别对每类方法进行介绍,最后介绍计算机视觉其他领域的技术在人脸图像年龄估计中的应用。
3.1 回归模型
回归模型运用回归分析的方法,通过建立表征人脸年龄变化规律的函数模型直接进行人脸年龄估计
[
6
]
。根据在回归模型中是否借助多分类模型,又可以将回归模型分为直接回归模型和分类—回归模型两类。
3.1.1 直接回归模型
Yi等人
[
31
]
首先提出了多尺度深度卷积神经网络融合(Multi-Scale DCNN)的人脸年龄估计方法,该方法对多个不同的人脸区域使用多个不同尺度的DCNN进行人脸图像年龄特征提取,聚合23个DCNN的输出结果连接成一个全连接层,并采用平方差损失函数进行年龄回归,最后在MORPH Album 2数据集上取得了优于传统方法的结果。Wang等人
[
32
]
采用1个含有3层卷积层、2层池化层和1层全连接层的DCNN提取人脸图像年龄特征,然后分别利用边界费舍尔分析(MFA)、正交局部保持投影法(OLPP)和局部敏感判别分析(LSDA)对年龄特征进行降维,最后采用支持向量回归的方法进行了人脸年龄估计。Ranjan等人
[
33
]
针对表象年龄估计,采用1个含有10层卷积层、5层池化层和1层全连接层的深度卷积神经网络
[
34
]
提取人脸图像年龄特征,然后使用1个3层的人工神经网络(ANN)进行了年龄回归,在LAP2015数据集上取得了一定的效果。Shen等人
[
35
]
受深度神经决策森林(DNDFs)
[
36
]
和标签分布学习森林(LDLFs)
[
37
]
的启发,提出可微回归森林(differentiable regression forests),并将可微回归森林与深度网络整合,利用交互优化策略,形成端到端的深度回归森林(deep regression forests)年龄估计模型,并在MORPH、FG-NET和CACD数据集上取得了优于其他回归模型的效果。Kuang等人
[
38
]
使用DCNN在多个年龄估计数据集上学习人脸图像年龄特征表达,再结合随机森林和二次回归方法提出DeepCodeAge模型,在LAP2015数据集上进行表象年龄估计。
3.1.2 分类—回归模型
由于衰老过程中的随机性以及面部外观与其实际年龄之间的模糊映射,基于直接回归的人脸年龄估计方法不容易收敛。若将年龄估计问题直接归类为多分类问题,则面临以下两个问题:1)年龄组具有序数性、相关性高的特点,而分类模型并未体现出这两个特性;2)分类模型中,年龄会被量化为几个组,而量化方法的不同会导致量化过程中产生误差,同时年龄组之间存在一定的模糊性,会影响年龄估计的准确性。所以许多研究者将多分类模型与回归模型相结合实现人脸年龄回归任务。
Rothe等人
[
39
]
将回归问题转换为分类—回归问题,提出深度期望网络(DEX)进行表象年龄估计。DEX网络将VGG-16网络的最后一层神经元数目改为101个,利用修改后的网络提取人脸图像特征,进行人脸年龄分类,从而获得人脸图像属于0~100岁共101类的每类概率,最终将分类器各个类别概率乘以对应的年龄,得到网络预测的年龄。该方法获得了ChaLearn2015人脸表象年龄估计竞赛冠军。
DEX中人脸年龄分为101类,这会导致网络尺寸变大,全连接层产生大量参数。为了在不牺牲更多精度的情况下减小网络尺寸,降低网络参数数量,Yang等人
[
40
]
提出轻分阶段回归网络(SSRNet),采取从粗到细的策略(coarse-to-fine strategy),分阶段回归解决年龄估计问题,并引入动态范围这一概念灵活处理年龄的不平衡和连续性。
Agustsson等人
[
17
]
在深度期望网络的基础上将残差网络思想与DEX相结合,提出残差DEX模型(residual DEX)。该模型在APPA-REAL数据集上取得了优于深度期望网络的效果。此外,Agustsson等人
[
41
]
还提出了锚定回归网络(ARN)进行表象年龄估计,并在LAP数据集上验证了其有效性。该网络可以无缝地集成到各种深度或浅层卷积神经网络中,或者直接与固定特征表示一起使用。
Liu等人
[
42
]
为增强表象年龄估计的鲁棒性,将年龄值回归和高斯标签分布分类两种模型融合,提出了AgeNet网络,将表象年龄标签中的不确定性引入到人脸年龄估计中,在LAP2015上提高了表象年龄估计的效果。赵一丁等人
[
43
]
提出一种分类模型和回归模型混合的人脸年龄估计方法。该方法使用VGG-Face
[
44
]
的参数,在IMDB-WIKI和CACD数据集预训练得到一个年龄段判别CNN、一个年龄分类CNN、一个年龄回归CNN,进而利用年龄段判别CNN将人脸分入青少年、中年、老年和两个重叠区域5个年龄段,并对青少年和老年采用分类CNN进行年龄估计,对中年采用年龄回归CNN估计,对重叠区域采用两个模型估计的均值作为年龄估计值。
3.2 多分类模型
人的年龄可以简单分为几个年龄组(age group)。由于基于回归的年龄估计模型存在收敛困难的问题,且年龄组分类能够满足大部分实际应用的需求,越来越多的非受限人脸年龄估计数据集仅包含年龄组标注
[
45
]
,因此非受限条件下的年龄组估计已经成为当前的研究重点之一,而多分类模型(multi-classification model)是实现年龄组估计的主要手段。
Levi等人
[
46
]
采用包含3个卷积层、2个全连接层的DCNN在非受限条件下的Adience数据集上进行年龄以及性别分类。该方法在非受限条件下的Adience数据集上进行年龄组估计,并验证了在非受限条件下其结果优于人工设计特征方法。张珂等人
[
45
]
采用深度多级残差网络(RoR)
[
47
]
以及随机深度算法(SD)在Adience数据集上进行年龄组估计,并进一步提出了结合人脸性别属性和变权损失函数的非受限条件下人脸图像年龄组估计方法
[
48
]
,模型结构如
图 7
所示。该方法对IMDB-WIKI数据集进行了清洗,建立了IMDB-WIKI-101数据集用于模型预训练,并为建模人脸属性间的关系引入了性别预训练机制,提高了模型的泛化能力,该方法还考虑到人脸的衰老趋势提出了变权损失函数(weighted loss),最终在Adience数据集上取得了当时最好的效果。
人与人之间的衰老规律各不相同。传统的年龄组分类方法忽视了组内不同年龄间的关系,浪费了年龄标注内大量关键信息;年龄回归方法,并未考虑到人类衰老是动态过程,人的年龄不同,衰老趋势不同。而基于排序模型的方法用待估计年龄与一系列年龄值进行比较,确定年龄标注值在年龄序列中的位置,该方法主要针对传统方法忽略人脸衰老过程中的动态性、模糊性以及个性化特点的问题。
Yang等人
[
51
]
认为两个年龄标签的相对顺序(大于或者小于)比具体的年龄差值信息更稳定,提出了DeepRank+模型,基于年龄标记的相对顺序进行年龄估计。Niu等人
[
52
]
提出多输出顺序回归卷积神经网络(OR-CNN),将人脸年龄估计问题转换为多个顺序二分类的问题。Chen等人
[
53
]
提出Ranking-CNN,同样将人脸年龄估计问题转换为多个顺序二分类的问题。Ranking-CNN利用数据训练一系列基础的CNN作为Rank模式中的二分类器,这些基础的CNN输出的二分类结果整合到一起作为年龄估计值。Tan等人
[
54
]
提出了$n$-年龄组编码模型(AGE$n$)。该方法将相邻年龄的图像分至同一组,每一个年龄会对应$n$组年龄组,通过这一方法用$n$组二分类子问题替代年龄估计问题,这些子问题由具有多个分类器的DCNN解决。随后利用局部年龄解码(local age decoding)方法将分类器中的年龄解码为确切年龄。Pan等人
[
55
]
认为深度学习中常用的Softmax损失函数不包含年龄的序数性,提出了修正对比损失函数(revised contrastive loss)用于模拟样本之间的成对年龄顺序关系,使模型了解更多年龄信息特征。
3.4 计算机视觉其他领域的技术在人脸年龄估计上的应用
3.4.1 标签分布学习在人脸年龄估计中的应用
在深度学习领域中,常见的一类工作是使用带标签数据训练卷积神经网络实现分类、回归或其他目的,这种训练模型学习规律的方法一般称之为监督学习。监督学习分为单标签学习、多标签学习和标签分布学习(LDL)。标签分布学习是为了解决监督学习中数据标签的不确定性
[
56
]
。与单标签学习和多标签学习不同,标签分布学习将数据的标签视为一种概率分布。这种方式可以建立标签空间中标签之间的关系,可以更好地利用数据标签的信息。标签分布学习在一些计算机视觉任务如表情识别
[
57
]
、人体头部姿态估计
[
58
]
等领域得到应用。人脸年龄具有顺序性,可以视为一种概率分布。所以一部分研究人员将标签分布学习应用在人脸年龄估计中,取得了一定的效果。
Yang等人
[
59
]
考虑到表象年龄的不确定性,提出了一种基于年龄标签分布的损失函数,并通过两组不同结构的DCNN模型进行双通道融合表象年龄估计。Gao等人
[
60
]
提出了一种深度标签分布学习框架(DLDL),将每幅人脸图像的标签转换成离散的标签分布,通过最小化年龄预测值和真实年龄之间的KL散度(Kullback-Leibler divergence)来学习人脸年龄标签分布,从而有效利用标签中的不确定信息。在DLDL基础上,Gao等人
[
61
]
提出了一个在特征学习和分类器学习过程中标签分布学习和年龄真值回归联合进行的端到端学习网络DLDL-v2,解决了DLDL训练目标与验证目标不一致的问题。Antipov等人
[
62
]
针对0~12岁儿童引入独立的人脸年龄估计模型,结合标签分布编码策略和0/1分类编码策略进行表象年龄估计,取得了ChaLearn2016人脸表象年龄估计竞赛冠军。Pan等人
[
63
]
提出了一种应用在年龄估计中的标签分布学习方法。该方法将均值—方差损失函数应用在端到端(end-to-end)的CNN学习过程中,在模型训练过程中优化了年龄标签分布的均值和方差,并将训练出的模型应用在人脸年龄估计中。
3.4.2 细粒度图像分类在人脸年龄估计中的应用
细粒度图像分类属于计算机视觉领域热门的研究课题之一。其目的是将图像中大类别(粗粒度)划分为更加精细的子类(细粒度),但子类别间类间差异较小,提高了图像分类的难度。人脸年龄估计需要区分不同年龄的人脸图像,而年龄相近的图像具有高度的相似性和微小的类间差异,能够准确定位到具有区别性的部分信息至关重要。所以可以将年龄估计问题看成细粒度分类问题。一部分研究人员将人脸年龄估计问题视为细粒度分类问题,取得了一定的效果。
Yi等人
[
31
]
采用多尺度DCNN融合的人脸年龄估计方法进行年龄估计,但仍依赖人脸关键点定位固定的细节区域,存在大量的冗余信息。Rodríguez等人
[
64
]
受细粒度分类中注意力机制的启发,为提高年龄和性别识别的性能,提出了全新的前馈注意力模型(FFAM)。该模型增强了现有的卷积神经网络对非受限条件下识别任务的鲁棒性,该模型在MOPRH Album 2、Adience和IoG数据集中分别进行实验,取得了一定效果。Zhang等人
[
65
]
基于细粒度分类和视觉注意机制的思想,结合注意力长短时记忆网络(AL)提出了一种细粒度年龄估计的方法,利用深层卷积神经网络和LSTM单元构建AL-ResNets和AL-ROR网络, 提取对年龄敏感的局部区域,继而结合局部区域的细节特征与整幅人脸图像的全局特征进行年龄估计,该方法在MORPH Album 2、FG-NET和LAP数据集上获得了优异的效果。
3.4.3 人脸属性多任务估计
人脸图像具有诸如年龄、性别、身份、种族、情绪等属性,这些属性相互关联,可以提供大量可用信息。但大多数人脸年龄估计研究仅限于对图像年龄进行估计,而忽视了性别、种族和其他内外在属性对年龄估计的影响,部分研究者则利用其他人脸属性信息辅助年龄估计,取得了一定的效果。
Levi等人
[
46
]
在非受限条件下的Adience数据集上同时进行年龄以及性别分类。Zhang等人
[
47
]
利用深度残差卷积神经网络(RoR)在Adience数据集上进行年龄组估计和性别分类。Ekmekji
[
66
]
提出了一种链式的性别及年龄分类方法Chained-net,该方法考虑到性别属性对年龄估计的影响,针对不同性别分别训练DCNN。Duan等人
[
67
]
考虑到性别和种族属性对年龄估计的影响,提出了DCNN与极限学习机(ELM)的混合结构卷积神经网络,融合年龄、性别以及种族特征进行人脸年龄估计。Han等人
[
68
]
提出了一种端到端的深度多任务学习方法(DMTL)来联合估计单幅图像中包括人脸年龄在内的多个属性,该方法考虑到了人脸属性的相关性以及异构性,前期进行共享特征的提取,后期分别学习得到特定类型的特征以同时进行多个属性的预测。
4 年龄估计评价指标和性能
算法优越性的评价与一个好的客观指标是密不可分的,因此年龄估计算法的性能评价需要一系列客观指标。常用的年龄估计指标有平均绝对误差(MAE)
[
31
]
、累积分数(CS)
[
21
]
、$ε$-error
[
15
-
16
]
、单一分类准确率和$1-{\rm{off}}$分类准确率
[
43
]
等。
4.1 平均绝对误差
平均绝对误差
[
31
]
是指所有测试图像的年龄估计值和年龄真值的平均误差,定义为
{\varepsilon _{{\rm{ error }}}} = 1 - \frac{1}{N}\sum\limits_1^N {{{\rm{e}}^{ - \frac{{{{\left( {{a_i} - {\mu _i}} \right)}^2}}}{{2\sigma _i^2}}}}}
式中,$Acc$和$Acc _{1-{\rm{off}}}$分别为单一分类准确率和$1-{\rm{off}}$分类准确率,$Num _{{\rm{acc}}}$、$Num_{1- {\rm{off}}}$和$Num _{{\rm{test}}}$分别表示预测为正确类别图像数、预测为正确或相邻类别图像数和测试集图像总数。由于部分低精度人脸年龄估计应用的需要,如成年人准入认证等
[
45
]
,$1-{\rm{off}}$分类准确率应运而生。与单一分类准确率不同,$1-{\rm{off}}$准确率将预测类别与实际类别相邻的两类一致也判别为正确。这两种评价指标主要用于标注类型为年龄组的数据集(Adience、IoG等)中。
4.5 现有基于深度学习的人脸年龄估计方法的性能对比
为了对比现有基于深度学习的人脸年龄估计方法,
表 2
—
表 6
整理了常用的人脸年龄数据集(FG-NET、MORPH、Adience、LAP2015和LAP2016)上的结果。值得注意的是:1) MORPH数据集包含Album 1和Album 2两部分。大部分文献仅使用Album 2进行实验,小部分文献使用整个MORPH数据集进行实验。
表 3
中给出了MORPH数据集的使用情况。2)由于人脸年龄估计数据集类型较多,无法对各个数据集进行完整的算法核心模块分析。在本文整理的人脸年龄估计研究中,在MORPH数据集上进行的类型比例最多,故本节主要对在MORPH数据集上的算法进行人脸年龄估计性能的分析。
从
表 2
—
表 6
中可以发现:
1) 深度学习可以有效提高人脸年龄估计的性能。随着卷积神经网络的发展,人脸年龄估计在MORPH数据集的表现有了一定提高。与早期利用浅层卷积神经网络
[
31
-
32
]
进行特征提取,然后进行年龄回归或分类相比,表现更好的人脸年龄估计方法
[
35
,
61
,
65
]
采用了端到端的模型,大幅度提高了人脸年龄估计的性能。Shen等人
[
35
]
将可微回归森林与深度卷积神经网络整合,利用交互优化策略,形成端到端的深度年龄估计模型:深度回归森林(deep regression forests)。Zhang等人
[
65
]
利用注意力长短时记忆网络提取人脸图像对年龄敏感的细粒度特征,并结合人脸图像的整体特征进行人脸年龄估计。Gao等人
[
61
]
提出的深度标签学习网络(DLDL-v2)将标签分布学习和年龄真值回归结合在一起,获得了MORPH数据集上的最好结果。这些方法表明,提高对图像中人脸年龄相关特征的提取能力可以有效提高人脸年龄估计性能。此外绝大多数基于深度学习的人脸年龄估计方法均应用交叉熵损失函数,对损失函数的修改也可以提高人脸年龄估计的性能。Pan等人
[
63
]
将均值—方差损失函数(mean-variance loss)应用在端到端(end-to-end)的卷积神经网络的学习过程中,大幅提高了人脸年龄估计性能,表现仅次于(DLDL-v2)。
2) 虽然深度学习较传统方法可以提高人脸年龄估计的性能,但是随着非受限条件数据集的出现,人脸年龄估计的研究重心从受限条件逐渐过渡到非受限条件下人脸年龄估计,在非受限条件下人脸年龄估计效果仍不及受限条件的人脸年龄估计。例如受限条件数据集FG-NET和MORPH中MAE已降到2岁左右(FG-NET:2.39岁、MORPH:1.69岁),而非受限条件下数据集(LAP:MAE为3.452岁)的性能明显低于MORPH和FG-NET数据集。又由于年龄组分类能够满足大部分实际应用的需求,非受限条件下的年龄组估计成为当前的研究热点,但是现有方法在Adience数据集上仅达到低于70%的分类准确率。其原因在于非受限条件下的人脸年龄数据集的变化更大,导致基于深度学习的人脸年龄估计方法在非受限条件下的泛化性较差,所以非受限条件下人脸年龄估计还有很大的提升空间。
3) 近两年,随着LAP比赛的开展,越来越多的研究者对人脸图像表象年龄估计进行了研究,这对分析主观年龄和客观年龄之间的关系非常重要。由于人脸表象年龄相对于人脸真实年龄具有主观不确定性,存在人工主观标注的均值和方差,提高了表象年龄估计的难度。尽管现有方法对人脸表象年龄估计性能有一定的提高,但相对于真实年龄估计仍有差距,所以如何建模主观不确定性,分析主客观年龄估计的关系,进一步提升表象年龄估计的性能任重而道远。
5 结语
尽管人脸年龄估计研究取得了巨大进展,但人脸年龄估计的效果仍不能完全满足实际应用的需要,究其原因,主要是目前人脸年龄估计研究仍存在以下几个方面的困难和挑战:
1) 引入人脸年龄估计的先验知识不足。影响人脸年龄估计的内在因素有很多,故而不能简单地将人脸年龄估计看做是一般的分类或回归问题。首先年龄之间存在相关性,具有顺序关系;其次,人类衰老是“动态”变化的过程,具有一定的规律性;另外,人的身份、性别、种族等内在属性也在一定程度上影响人脸年龄估计。部分文献[
50
,
53
-
54
]进行了初步的探索。这些方法虽然考虑到人脸年龄间的顺序关系,但不能反映人脸衰老的规律;对于人脸其他属性的处理方法,现有方法多是将性别和种族属性作为并行任务
[
37
,
68
]
或者单独任务来处理
[
47
,
63
]
,没有深入探讨这些属性对人脸年龄估计的影响模式。所以探索如何从影响人脸年龄估计的内在因素中提取隐含的知识,并将先验知识融入到人脸年龄估计方法中是亟待解决的重要问题之一。
2) 缺少兼顾全局和局部细节的人脸年龄估计特征表达方法。人脸年龄估计任务中类间相似性高,且对于年龄敏感的细节区域(如皱纹、头发、斑点等位置)有助于年龄判别,所以将细粒度分类思想引入人脸年龄估计,“见微知著”地进行人脸年龄估计是十分必要和可行的。目前存在的细粒度人脸年龄估计方法
[
31
,
64
-
65
]
均是通过将细节区域特征与人脸全局特征进行预测级的融合实现年龄估计,如何进行兼顾全局和局部细节的人脸年龄估计特征表达是未来人脸年龄估计研究的方向之一,例如,如何采用视觉软注意机制(visual soft-attention)提取年龄特征。
3) 现有人脸年龄估计数据集的限制。现有人脸年龄估计数据集规模较小,导致深度模型训练过程中容易出现过拟合问题,模型泛化能力不强,尤其对于非受限条件下的人脸年龄估计任务小规模数据集很难覆盖各种变化的情况,导致非受限条件的人脸年龄估计效果不佳。尽管IMDB-WIKI数据集具备数十万人脸年龄图像,但相对于其他计算机视觉领域的数据集(如ImageNet),其规模仍相对较小,且同时存在图像质量低、标注错误等缺点。所以构建高质量、大规模的非受限条件下的人脸年龄估计数据集是解决以上问题的重要手段之一。然而,大规模人脸年龄数据集的采集与标注工作需要耗费大量的人力和物力,所以如何在不进行大量数据采集和标注的前提下实现数据扩增是未来人脸年龄估计研究的重要方向之一,例如,如何在现有人脸数据集基础上利用生成对抗网络等生成模型进行数据集扩增,在扩大数据集规模的同时,保证数据集的质量。此外,在不改变现有人脸年龄估计数据集规模的前提下,还可以利用迁移学习、无监督学习或半监督学习等学习方式挖掘人脸图像中固有的年龄特征表达,减少对数据标注的依赖性。部分文献进行了初步探索。Dehghan等人
[
69
]
使用迁移学习的策略,采用400万大规模人脸识别数据集预训练DCNN,然后在LAP2016数据集上进行微调以实现迁移学习。Zaghbani等人
[
70
]
利用深度自编码器(DAE)提取人脸图像年龄特征进行人脸年龄估计。
4) 实际应用环境下的多尺度人脸年龄估计问题。在实际应用环境下,往往是对多尺度人脸进行年龄估计,同时涉及人脸检测、人脸超分辨率、人脸对齐和人脸年龄估计等多项人脸分析任务。一方面,尽管现有的人脸检测技术
[
71
-
72
]
已能较好地解决多尺度人脸检测问题,但小尺度人脸图像仍存在分辨率低、模糊等问题,需要进行人脸超分辨率,增加了人脸年龄估计的难度;另一方面,在以往的研究中各项人脸分析任务是独立的,使人脸年龄估计的效果和效率受到制约。为了实现多任务人脸分析,Ranjan等人
[
73
]
提出了一种多任务融合的DCNN人脸分析方法,但没有考虑到小尺度人脸超分辨率问题。所以研究多尺度感知条件下多任务融合的端到端人脸年龄估计方法是十分必要的。
Angulu R, Tapamo J R, Adewumi A O. Age estimation via face images:a survey[J].
EURASIP Journal on Image and Video Processing, 2018, 2018: 42.
[
DOI:10.1186/s13640-018-0278-6
]
Fu Y, Guo G D, Huang T S. Age synthesis and estimation via faces:a survey[J].
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(11): 1955–1976.
[
DOI:10.1109/TPAMI.2010.36
]
Bruyer R, Scailquin J C. Person recognition and ageing:the cognitive status of addresses-an empirical question[J].
International Journal of Psychology, 1994, 29(3): 351–366.
[
DOI:10.1080/00207599408246548
]
Lanitis A, Draganova C, Christodoulou C. Comparing different classifiers for automatic age estimation[J].
IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2004, 34(1): 621–628.
[
DOI:10.1109/TSMCB.2003.817091
]
Guo G D, Fu Y, Dyer C R, et al. Image-based human age estimation by manifold learning and locally adjusted robust regression[J].
IEEE Transactions on Image Processing, 2008, 17(7): 1178–1188.
[
DOI:10.1109/TIP.2008.924280
]
Wang X M, Liang L Y, Wang Z L, et al. Age estimation by facial image:a survey[J].
Journal of Image and Graphics, 2012, 17(6): 603–618.
[王先梅, 梁玲燕, 王志良, 等.
人脸图像的年龄估计技术研究[J].
中国图象图形学报, 2012, 17(6): 603–618.
[
DOI:10.11834/jig.20120601
]
Guo G D, Mu G W, Fu Y, et al. Human age estimation using bio-inspired features[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, Florida, USA: IEEE, 2009: 112-119.[
DOI: 10.1109/CVPR.2009.5206681
]
http://cn.bing.com/academic/profile?id=e3baf0a4859cd1c0672856b2f2892f29&encoded=0&v=paper_preview&mkt=zh-cn
Lowe D G. Object recognition from local scale-invariant features[C]//Proceedings of the 7th IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE, 1999: 1150-1157.[
DOI: 10.1109/ICCV.1999.790410
]
http://cn.bing.com/academic/profile?id=7bad81d7d639259da074dab67aba54d9&encoded=0&v=paper_preview&mkt=zh-cn
Eidinger E, Enbar R, Hassner T. Age and gender estimation of unfiltered faces[J].
IEEE Transactions on Information Forensics and Security, 2014, 9(12): 2170–2179.
[
DOI:10.1109/TIFS.2014.2359646
]
Panis G, Lanitis A, Tsapatsoulis N, et al. Overview of research on facial ageing using the FG-NET ageing database[J].
IET Biometrics, 2016, 5(2): 37–46.
[
DOI:10.1049/iet-bmt.2014.0053
]
Chen B C, Chen C S, Hsu W H. Face recognition and retrieval using cross-age reference coding with cross-age celebrity dataset[J].
IEEE Transactions on Multimedia, 2015, 17(6): 804–815.
[
DOI:10.1109/TMM.2015.2420374
]
Kwon Y H, da Vitoria Lobo N. Age classification from facial images[J].
Computer Vision and Image Understanding, 1999, 74(1): 1–21.
[
DOI:10.1006/cviu.1997.0549
]
Cootes T F, Edwards G J, Taylor C J. Active appearance models[J].
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 681–685.
[
DOI:10.1109/34.927467
]
Gao F, Ai H Z. Face age classification on consumer images with Gabor feature and fuzzy LDA method[C]//Proceedings of the 3rd International Conference on Advances in Biometrics. Alghero, Italy: Springer, 2009: 132-141.[
DOI: 10.1007/978-3-642-01793-3_14
]
http://cn.bing.com/academic/profile?id=cbb94b73febafffdbab4afef04957bbc&encoded=0&v=paper_preview&mkt=zh-cn
LeCun Y, Bengio Y, Hinton G. Deep learning[J].
Nature, 2015, 521(7553): 436–444.
[
DOI:10.1038/nature14539
]
Rothe R, Timofte R, Van Gool L. Deep expectation of real and apparent age from a single image without facial landmarks[J].
International Journal of Computer Vision, 2018, 126(2-4): 144–157.
[
DOI:10.1007/s11263-016-0940-3
]
Zhao Y D, Tian S P. Facial age estimation method based on hybrid model of classification and regression[J].
Journal of Computer Applications, 2017, 37(7): 1999–2002, 2026.
[赵一丁, 田森平.
基于分类与回归混合模型的人脸年龄估计方法[J]. 计算机应用, 2017, 37(7): 1999–2002, 2026.
[
DOI:10.11772/j.issn.1001-9081.2017.07.1999
]
Zhang K, Gao C, Guo L R, et al. Age estimation with multilevel residual networks in unconstrained conditions[J].
Journal of Computer-Aided Design & Computer Graphics, 2018, 30(2): 346–353.
[张珂, 高策, 郭丽茹, 等.
非受限条件下多级残差网络人脸图像年龄估计[J]. 计算机辅助设计与图形学学报, 2018, 30(2): 346–353.
[
DOI:10.3724/SP.J.1089.2018.16286
]
Zhang K, Gao C, Guo L R, et al. Age group and gender estimation in the wild with deep RoR architecture[J].
IEEE Access, 2017, 5: 22492–22503.
[
DOI:10.1109/ACCESS.2017.2761849
]
Zhang K, Sun M, Han T X, et al. Residual networks of residual networks:multilevel residual networks[J].
IEEE Transactions on Circuits and Systems for Video Technology, 2017, 28(6): 1303–1314.
[
DOI:10.1109/TCSVT.2017.2654543
]
Tan Z C, Wan J, Lei Z, et al. Efficient group-n encoding and decoding for facial age estimation[J].
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(11): 2610–2623.
[
DOI:10.1109/TPAMI.2017.2779808
]
Geng X. Label distribution learning[J].
IEEE Transactions on Knowledge and Data Engineering, 2016, 28(7): 1734–1748.
[
DOI:10.1109/TKDE.2016.2545658
]
Gao B B, Xing C, Xie C W, et al. Deep label distribution learning with label ambiguity[J].
IEEE Transactions on Image Processing, 2017, 26(6): 2825–2838.
[
DOI:10.1109/TIP.2017.2689998
]
Antipov G, Baccouche M, Berrani S A, et al. Apparent age estimation from face images combining general and children-specialized deep learning models[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshop. Las Vegas, USA: IEEE Press, 2016: 801-809.[
DOI: 10.1109/CVPRW.2016.105
]
Rodríguez P, Cucurull G, Gonfaus J M, et al. Age and gender recognition in the wild with deep attention[J].
Pattern Recognition, 2017, 72: 563–571.
[
DOI:10.1016/j.patcog.2017.06.028
]
Duan M X, Li K L, Li K Q. An ensemble cnn2elm for age estimation[J].
IEEE Transactions on Information Forensics and Security, 2018, 13(3): 758–772.
[
DOI:10.1109/TIFS.2017.2766583
]
Han H, Jain A K, Wang F, et al. Heterogeneous face attribute estimation:a deep multi-task learning approach[J].
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(11): 2597–2609.
[
DOI:10.1109/TPAMI.2017.2738004
]
Zaghbani S, Boujneh N, Bouhlel M S. Age estimation using deep learning[J].
Computers & Electrical Engineering, 2018, 68: 337–347.
[
DOI:10.1016/j.compeleceng.2018.04.012
]
收稿日期: 2018-12-10 | 修回日期: 2019-03-13
基金项目: 国家自然科学基金项目(61871182,61302163);河北省自然科学基金项目(F2015502062);中央高校基本科研经费项目(2018MS094,2018MS095)
Supported by: National Natural Science Foundation of China(61871182, 61302163)
中图法分类号: TP301.6
文献标识码: A
文章编号: 1006-8961(2019)08-1215-16
Zhang K, Wang X S, Guo Y R, Su Y K, He Y X . Survey of deep learning methods for face age estimation[J]. Journal of Image and Graphics,
2019,
24(8): 1215-1230.
[张珂, 王新胜, 郭玉荣, 苏昱坤, 何颖宣. 人脸年龄估计的深度学习方法综述[J].
中国图象图形学报,
2019,
24(8): 1215-1230.][DOI: 10.11834/jig.180653]