英语原文共 10 页
使用卷积神经网络的年龄和性别分类
Gil Levi and Tal Hassner
Department of Mathematics and Computer Science
The Open University of Israel
摘要
自动年龄和性别分类已经与越来越多的应用程序相关,特别是随着社交平台和社交媒体的兴起。 然而,现实方法在真实世界图像上的表现仍然非常缺乏,特别是与最近报道的相关脸部识别任务的性能的巨大飞跃相比。 在本文中,我们通过使用深度卷积神经网络(CNN)来学习表示,可以在这些任务上获得显着的性能提升。 为此,我们提出了一种简单的卷积网络架构,即使在学习数据量有限的情况下也可以使用。 我们根据最近的年龄和性别估计Adience基准评估我们的方法,并将其显示为显着优于当前最先进的方法
1 介绍
年龄和性别在社会互动中发挥着重要作用。语言为男性或女性保留了不同的称呼和语法规则,并且与年轻人相比,在解决老年人时常常使用不同的词汇表。尽管这些属性在我们的日常生活中发挥了基本作用,但是从面部图像中准确可靠地自动估计它们的能力仍然很远从满足商业应用的需求。当考虑最近在人脸识别相关任务中对超人类能力的主张时,这尤其令人困惑(例如,[48])。
从面部图像估计或分类这些属性的过去方法依赖于面部特征尺寸[29]或“定制的”面部描述符(例如,[10,15,32])的差异。大多数人采用了专为年龄或性别评估任务而设计的分类方案,包括[4]和其他方法。这些过去的方法很少被设计用于处理无约束成像条件的许多挑战[10]。此外,这些系统采用的机器学习方法没有充分利用通过因特网提供的大量图像示例和数据来提高分类能力。
在本文中,我们试图缩小自动人脸识别能力与年龄和属性估计方法之间的差距。 为此,我们遵循最近的人脸识别系统所提出的成功案例:过去几年描述的人脸识别技术已经表明,使用深度卷积神经网络(CNN)可以取得巨大进步[31]。我们通过简单的网络架构展示了类似的收益,这是通过考虑现有面部数据集中准确的年龄和性别标签的相当有限的可用性而设计的。
我们在新发布的Adience基准测试我们的网络,用于未过滤面部图像的年龄和性别分类[10]。 我们表明,尽管Adience集中的图像非常具有挑战性,并且我们的网络设计非常简单,但我们的方法在很大程度上优于现有技术水平。 虽然这些结果为基于深度学习的方法提供了显着的基线,但它们通过更复杂的系统设计留下了改进的空间,这表明在Adience图像中反映的在无约束环境中准确估计年龄和性别的问题仍未解决。 为了为开发更有效的未来方法提供立足点,我们公开了经过培训的模型和分类系统。 有关更多信息,请参阅项目网页www.openu.ac.il/home/hassner/projects/cnn_agegender.
图1 面对年龄和性别分类的Adience基准[10]
这些图像代表了来自现实世界,无约束图像的年龄和性别估计的一些挑战。 最值得注意的是,极端模糊(低分辨率),遮挡,平面外姿势变化,表情等等。
2.相关工作
在描述所提出的方法之前,我们简要回顾一下年龄和性别分类的相关方法,并提供深度卷积网络的粗略概述。
2.1 年龄和性别分类
年龄分类 近年来,从面部图像中自动提取年龄相关属性的问题受到越来越多的关注,并且已经提出了许多方法。这些方法的详细调查可以在[11]和最近的[21]中找到。我们注意到,尽管我们关注的是年龄组分类而不是精确的年龄估计(即年龄回归),但下面的调查包括为这两项任务设计的方法。
早期的年龄估计方法是基于计算不同面部特征测量值之间的比率[29]。一旦面部特征(例如,眼睛,鼻子,嘴巴,下巴等)被定位并且测量它们的尺寸和距离,就计算它们之间的比率并用于根据手工制作的规则将面部分类成不同的年龄类别。最近,[41]使用类似的方法来模拟18岁以下受试者的年龄进展。由于这些方法需要准确定位面部特征,这本身就是一个具有挑战性的问题,因此它们不适合人们可能期望在社交平台上找到的野外图像。
在另一项工作中,有一些方法将衰老过程表示为子空间[16]或流形[19]。 这些方法的缺点是它们要求输入图像接近正面且对齐良好。 因此,这些方法仅在受限的近前图像数据集(例如UIUC-IFP-Y [12,19],FG-NET [30]和MORPH [43])上呈现实验结果。 同样,结果,这种方法不适合于不受约束的图像。
与上述不同的是使用局部特征来表示面部图像的方法。 在[55]高斯混合模型(GMM)[13]用于表示面部贴片的分布。 在[54]中,GMM再次用于表示局部面部测量的分布,但使用强大的描述符代替像素块。 最后,代替GMM,Hidden-MarkovModel,在[56]中使用超向量[40]来表示面部斑块分布。
局部图像强度补片的替代方案是鲁棒图像描述符:在[15]中使用Gabor图像描述符[32]以及将面部图像视为属于多于一个年龄类的Fuzzy-LDA分类器。在[20]中结合了生物启发特征(BIF)[44]和各种流形学习方法用于年龄估计。 [7]中使用了Gabor [32]和局部二元模式(LBP)[1]特征以及由支持向量机(SVM)[9]组成的分层年龄分类器,将输入图像分类为年龄等级,然后是支持向量回归[52]估计精确年龄。
最后,[4]提出了相关成分分析的改进版本[3]和局部保留预测[36]。这些方法分别用于远程学习和降维,其中Active Appearance Models [8]作为图像特征。
所有这些方法已被证明在年龄估计的小和/或约束基准上是有效的。据我们所知,在Group Photos基准测试中证明了表现最佳的方法[14]。在[10]中,通过采用LBP描述符变化[53]和丢失-SVM分类器,提出了该基准测试的最新性能。我们展示了我们提出的方法,以超越他们报告的针对同一任务设计的更具挑战性的Adience基准测试的结果。
性别分类 性别分类方法的详细调查可以在[34]中找到,最近可以在[42]中找到。 在这里我们快速调查相关方法。
性别分类的早期方法之一[17]使用在一小组近前面部图像上训练的神经网络。在[37]中,头部的组合3D结构(使用激光扫描仪获得)和图像强度用于分类性别。 [35]使用SVM分类器,直接应用于图像强度。 而不是使用SVM,[2]使用AdaBoost用于相同的目的,这里再次应用于图像强度。 最后,[49]提出了视点不变的年龄和性别分类。
最近,[51]使用Webers Local纹理描述符[6]进行性别识别,证明在FERET基准测试中表现接近完美[39]。 在[38]中,强度,形状和纹理特征与互信息一起使用,再次在FERET基准上获得近乎完美的结果。
图2 CNN架构的插图
该网络包含三个卷积层,每个层后面都有一个经过整流的线性操作和池化层。 前两个层也遵循使用局部响应归一化的标准化[28]。 第一个卷积层包含96个7times;7像素的滤波器,第二个卷积层包含256个5times;5像素的滤波器,第三个和最后的卷积层包含384个3times;3像素的滤波器。 最后,添加两个完全连接的层,每个层包含512个神经元。 有关详细信息,请参见图3以获取详细的示意图和文本。
上面讨论的大多数方法都使用FERET基准[39]来开发所提出的系统并评估性能。 FERET图像是在高度受控的条件下拍摄的,因此比野外脸部图像更具挑战性。此外,在该基准测试中获得的结果表明它对于现代方法而言是饱和的并且没有挑战性。 因此很难估计这些技术的实际相对效益。因此,[46]在流行的Labeled Faces in the Wild(LFW)[25]基准测试中进行了实验,主要用于人脸识别。 他们的方法是LBP特征与AdaBoost分类器的组合。
与年龄估计一样,我们也关注包含比LFW提供的图像更具挑战性的图像的Adience集合,使用更强大的系统报告性能,旨在更好地利用来自大量示例训练集的信息。
2.2 深度卷积神经网络
卷积神经网络(CNN)的第一个应用之一可能是[31]描述的用于光学字符识别的LeNet-5网络。与现代深度CNN相比,由于时间计算资源有限以及培养更大网络的算法挑战,它们的网络相对适中。
虽然更深层的CNN架构(具有更多神经元层的网络)具有很大的潜力,但直到最近它们才变得普遍,随着计算能力的显着提高(由于图形处理单元),互联网上随时可用的训练数据量,以及开发更有效的方法来培训这种复杂的模型。一个最近和值得注意的例子是在具有挑战性的Imagenet基准测试中使用深度CNN进行图像分类[28]。深度CNN还成功应用于人体姿态估计[50],面部解析[33],面部关键点检测[47],语音识别[18]和动作分类[27]等应用。据我们所知,这是他们从无约束照片中应用于年龄和性别分类任务的第一份报告。
3 年龄和性别估计的CNN
从社交图像库收集用于年龄和性别估计的大型标记图像训练集需要访问图像中出现的主题的个人信息(他们的出生日期和性别),这通常是私人的,或者是单调乏味且耗时的。 手动标记。 因此,来自真实世界社交图像的年龄和性别估计的数据集在尺寸上相对有限,并且目前在尺寸上与更大的图像分类数据集(例如,Imagenet数据集[45])不匹配。当基于机器学习的方法用于这种小图像集合时,过度拟合是常见问题。 当考虑深度卷积神经网络时,由于其大量的模型参数,这个问题更加严重。 因此,必须注意避免在这种情况下过度拟合。
3.1 网络架构
我们提出的网络架构在我们的实验中用于年龄和性别分类。如图2所示。图3中另外提供了整个网络设计的更详细的示意图。该网络仅包括三个卷积层和两个具有少量神经元的完全连接的层。这与所应用的更大的架构相比,例如,在[28]和[5]中。我们选择较小的网络设计的动机来自于我们希望降低过度拟合的风险以及我们试图解决的问题的性质:Adience集合上的年龄分类需要区分不同的类别;性别只有两个。这与例如[48]中用于训练用于面部识别的网络的一千个身份等级相比较。
所有三个颜色通道都由网络直接处理。首先将图像重新缩放为256times;256,并将227times;227的作物馈送到网络。然后如下定义三个随后的卷积层。
所有三个颜色通道都由网络直接处理。 首先将图像重新缩放为256times;256,并将227times;227的作物馈送到网络。 然后如下定义三个随后的卷积层。
- 将尺寸为3times;7times;7像素的96个滤波器应用于第一卷积层的输入,然后是整流线性算子(ReLU),最大池值采用2像素的3times;3区域的最大值 步幅和局部响应归一化层[28]。
- 然后,通过第二卷积层处理前一层的96times;28times;28输出,其包含256个大小为96times;5times;5像素的滤波器。 同样,接着是ReLU,最大池化层和具有与之前相同的超参数的本 图3我们的网络架构的完整示意图 地响应归一化层。
- 最后,第三个和最后一个卷积层通过应用一组尺寸为256times;3times;3像素的384个滤波器,然后是ReLU和最大汇集层,对256times;14times;14斑点进行操作。
然后,通过以下方式定义以下完全连接的层:
- 第一个完全连接的层,它接收第三个卷积层的输出并包含512个神经元,然后是ReLU和一个dropout层。
- 第二个完全连接的层,接收第一个完全连接层的512维输出,并再次包含512个神经元,然后是ReLU和一个dropout层。
- 第三个完全连接的层,映射到年龄或性别的最终类。
最后,最后一个完全连接的层的输出被馈送到softmax层,该层为每个类分配概率。 预测本身是通过对给定测试图像采用具有最大概率的类来进行的。
3.2 测试和训练
初始化 所有层中的权重用来自零均值高斯的随机值初始化,标准偏差为0.01。 为了强调这一点,我们不使用预先训练的模型来初始化网络; 网络是从头开始训练的,不使用图像之外的任何数据以及基准测试提供的标签。 这也应该与用于人脸识别的CNN实现进行比较,其中数十万个图像用于训练[48]。
训练的目标值表示为对应于基础真值类的稀疏二元向量。对于每个训练图像,目标,标签向量是类别数量的长度(两个用于性别,八个用于年龄分类任务的八个年龄类别),在地面实况的索引中包含1,在其他地方包含0。
网络训练 除了我们使用精益网络架构外,我们还应用了另外两种方法来进一步限制过度拟合的风险。 首先,我们应用dropout学习[24](即随机设置净工作神经元的输出值为零)。该网络包括两个dropout比率为0.5的丢失率(将神经元的输出值设置为零的几率为50%)。 其次,我们通过从256times;256输入图像中随机拍摄227times;227像素并在每个前后训练传递中随机镜像来使用数据增强。 这与[48]使用的多种作物和镜像变化类似。
训练本身是使用随机梯度体面进行的,图像批量大小为50个图像。 初始学习率为e-3,经过10K迭代后降低到e-4。
预测 我们尝试了两种使用网络的方法,以便为新面孔制作年龄和性别预测:
- 中心裁剪:使用脸部图像喂养网络,在脸部中心周围裁剪为227times;227。
- 过采样:我们提取五个227times;227像素的裁剪
区域,从256times;256面部图像的角落开始的四个区域,以及从面部中心开始的另外的裁剪区域。 向网络呈现所有五个图像以及它们的水平反射。 其最终预测被视为所有这些变化的平均预测值。
我们发现,由于
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。