英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于卷积神经网络的实时人脸识别系统的设计与评价
Pranav KB和Manikandan J*
Crucible of Research and Innovation (CORI) and Department of ECE, PES University, 100-Feet Ring Road, BSK Stage III, Bangalore 560085, Karnataka, India
Tel: 91minus;814minus;777minus;8114 E-mail address: manikandanj@pes.edu
摘要:
高速处理器和高分辨率相机的出现已经引领了面向各种应用的人脸识别系统设计的研究。人脸识别系统根据应用程序使用离线数据或实时输入。本文提出了一种基于卷积神经网络(CNN)的实时人脸识别系统的设计与评估。最初的设计评估是使用标准的ATamp;T数据集进行的,之后也会扩展到实时系统的设计。关于调整CNN参数以评估和提高所提议系统的识别精度的细节也被报道。为了提高系统的性能,本文还提出了一种系统的参数优化方法。在标准数据集和实时输入的情况下,该系统的最大识别准确率分别为98.75%和98.00%。
- 概述
人脸识别是一种利用人脸识别或验证个体身份的方法。人脸识别已被用于各种应用,如教室自动考勤管理系统,对进入禁区的监视,检测入侵者的活动空间,公共空间中名人的识别,联网家庭自动化系统对家庭入侵者的识别等等。大多数人脸识别系统的设计由两个主要模块组成:特征提取和分类器。在人脸识别系统的设计中,采用了各种特征提取和分类器算法的组合,如梯度直方图(HOG)和支持向量机分类器(SVM)、HOG和关联向量机(RVM)分类器、主成分分析(PCA)和SVM。 卷积神经网络(CNN)是一种深度学习算法,它执行特征提取和分类的组合任务,最常被推荐用于各种使用图像的应用。文献8是一篇关于人脸识别的详细文献综述,使用各种算法、数据集及它们的利弊进行分析。
本文提出了一种利用CNN进行实时人脸识别的设计方法,对系统通过改变CNN参数,以提高系统的识别精度。图1简要描述了本文所提出的使用CNN的实时人脸识别系统。论文组织如下:概述了卷积神经网络,并给出了实验结果的评价,实验结果与文献报道的结果的比较,结论和参考文献。
图1.提出的实时人脸识别系统框图
- 提出了卷积神经网络体系结构
卷积神经网络与普通神经网络相似,但有一个明确的假设,即输入是图像,允许设计者将某些属性编码到架构中。CNN架构由一系列的层组成,最简单的架构是[INPUT-CONV-RELU-POOL-FC]。输入层保存图像的原始像素值,卷积层由一个固定大小的核或滤波器组成,它以窗口方式滑动,对窗口图像执行卷积操作以提取特征。填充应用于输入图像的大小,以克服不均匀的映射与过滤器大小。RELU代表矫正线性单位,这是一个元素激活函数,赋予隐藏单位零值。POOL表示池化层,池化层负责降采样和降维,从而降低处理数据所需的计算能力。池化层还有一个内核或函数,它像窗口一样滑动到输入上,以提取旋转和位置不变的主要特征。最大池化和平均池化是两个常用的函数。FC是全连接层,输入层的每个神经元都与输出层的每个神经元相连,这一层负责计算特定类的得分,结果是N个输出,其中N表示要分类的类/类别的数量。选择得分最高的类作为CNN体系结构的预测类。FC层也称为致密层。值得注意的是,CNN的架构可以根据系统的设计要求和性能进行修改。CNN架构中使用的其他一些层包括DROPOUT和FLATTEN。DROPOUT layer是一种防止CNN过拟合的正则化技术,在训练过程中,每次更新时都将一部分输入值设为0,从而将其剔除,称为DROPOUT rate。保留的输入值被放大,以便在训练期间它们的总和保持不变。在FC层之前引入平坦层,将二维特征转化为一维特征。
CNN的架构因设计者而异,可以通过反复评估来修改层的顺序,以达到最大的识别精度。在评估了不同的序列层组合之后,图2给出了为拟议工作所考虑的CNN架构。提出的CNN架构是使用一个名为Keras的开源神经网络库设计的,该库运行在Tensorflow之上。图2中的CONV层包括CONV层和RELU层。首先将从摄像头采集到的实时输入图像输入到Viola Jones算法中进行人脸检测。然后将裁剪后的人脸图像转换为灰度,调整为120times;120像素,并送入由32个大小为3times;3像素的滤波器组成的第一卷积层,如图3所示。值得注意的是,这些滤波器的权值被初始化为随机数,并在几个时期内使用反向传播算法进行更新,以产生如图3所示的这些滤波器的最终权值。这些最终的权重稍后在分类阶段使用。如图所示,第一个CONV RELU层有32个滤波器的输出如图4所示,第二个CONV RELU层有32个滤波器,大小为3times;3像素,输出如图4所示。第二个CONV RELU层的输出将以4times;4像素的窗口大小提供给带有最大池化功能的池层。图5显示了使用最大池化和平均池化的池层输出。在评估过程中可以观察到,对于所提议的工作,最大池化比平均池化提供了更好的准确性,因此在这项工作中使用了最大池化。
从POOL层的输出馈送到衰减层。图6给出了三种不同的dropout rate下的dropout layer输出示意图。在评估过程中观察到,掉落率为0.5产生了拟议应用的最大精度,因此在这项工作中采用了相同的方法。CONV RELU、POOL和DROPOUT后续各阶段的输出如图7所示。从DROPOUT层输出中可以看出,没有留下太多信息,因此不包括CONV RELU、POOL和DROPOUT的附加阶段。然后输出被扁平化并馈送到致密/FC层进行分类。图2中最终密集层的大小为5times;1,因为本文提出的实时系统目前设计为对5个个体的人脸进行分类,而使用ATamp;T数据集设计的系统有一个大小为40times;1的密集层,对40个个体的人脸进行分类。
图2.提出的人脸识别系统的CNN结构
图3.卷积层1中32个3X3滤波器的滤波权重
图4.含32个滤光片和3X3窗口的CONY RELU层的输出
图5.POOL层CNN体系结构输出实例
图6.DROPOUT层的CNN体系结构输出实例
图7.CNN体系结构第二阶段的输出
- 实验结果
对所提出的人脸识别系统的性能评估最初是使用标准的ATamp;T数据库进行的,该数据库由来自40个个体的10张图像组成,总共得到400张图像。ATamp;T数据库中40个个体的样本如图8所示。在400张图片中,320张(来自40个人的8张)用于训练,剩下的80张用于测试。
图8.使用ATamp;T数据库中的样本来评估所提议的系统
在不同池化窗口大小的情况下,通过改变卷积层中的滤波器数量和卷积滤波器的窗口大小来进行系统的性能评估。评估的结果以及系统的识别精度绘制在图9中,x轴表示卷积滤波器的窗口大小,y轴表示卷积层中的滤波器数量。从图9可以看出,在使用2times;2和4times;4像素的池窗口大小时,大小为3times;3像素和32个滤波器的卷积滤波器产生的最大识别精度为98.75%。将所提议工作的性能评估与表1中关于使用相同数据集进行人脸识别的文献报道的结果进行比较。可以观察到,本文提出的方法和CNN架构可以与文献报道的工作相提并论。通过优化卷积滤波器的数目、卷积滤波器的窗口大小和池化,可以提高所提出工作的识别精度。
图9.本文提出的CNN体系结构对不同组合的识别精度(ATamp;T数据集)
表1.对ATamp;T数据集中文献报道的人脸识别结果进行比较
在使用标准的ATamp;T数据集对所提议的系统进行了成功的评估和测试之后,通过摄像机对所提议的系统的实时输入进行了性能评估。以作者和家庭成员等5个个体为样本对所提出的实时系统进行评价,如图10所示。每个人40张图片,总共200张图片。为了找出本文提出的系统对实时输入的识别精度,在200幅图像中,100幅图像(来自5个个体的20幅图像)用于训练,剩下的100幅图像用于测试。在实时系统上进行了实验,确定了卷积和池化层的最佳卷积滤波器数量和滤波器窗口大小。评估结果如图11所示,x轴表示卷积滤波器的窗口大小,y轴表示卷积层中的滤波器数量。从图11中可以看出,使用池窗口大小为2times;2、3times;3和4times;4像素的32个卷积滤波器,卷积滤波器窗口大小不同,对实时系统的最大识别准确率为98.00%。图12所示为实时人脸识别系统现场演示时的输出结果快照,以作者图像作为输入,作者身份显示在系统左上角。从图12中可以观察到,所述系统首先检测图像中的人脸,一旦检测到,它将识别该人脸并显示所述人的身份。
图10.样本用于对所提出的实时人脸识别系统的评估
表2列出了在联想make笔记本电脑(Intel I5-7200处理器运行在2.5GHz,NVIDIA Geforce 940MX图形处理器,8GB RAM)上运行系统的具体执行时间。从表2中可以看出,本文提出的实时人脸识别系统在图
图11.提出的CNN体系结构对不同组合的识别精度(实时数据集)
图12.在评估所提出的实时人脸识别系统时获得的结果快照
像捕获方面花费了74%的时间,其次是预处理(包括人脸检测、RGB灰度转换和缩放),而在CNN分类方面只花费了1%的时间。从表2中还可以看出,从文件中读取图像消耗了80.65%的时间,而使用ATamp;T数据集进行CNN分类只消耗了19.35%的时间。需要注意的是,ATamp;T数据集不需要预处理,因为所有的图像都是灰度的,大小相同,只有人脸。
表2.拟议系统的执行时间
- 结论
本文提出了一个基于卷积神经网络的实时人脸识别系统的设计与评估。通过调整CNN的各个参数来评估所提出的系统和CNN体系结构的性能,以提高所设计系统的识别精度。在使用ATamp;T和实时输入的情况下,该系统的识别准确率分别达到98.75%和98.00%。建议的工作可以很容易地适应各种消费应用,如基于人脸检测的家庭自动化、设备控制、考勤系统、入侵检测等。
参考文献
[1] R Samet, and M Tanriverdi. (2017) “Face Recognition based Mobile Automatic Classroom Attendance Management System.” International Conference on Cyberworlds, Chester, United Kingdom, 20minus;22 September, IEEE Computer Society, pp. 253minus;256.
[2] Fahad P, Md. Mahmudul, Md. Atiqur, Susan M, Moslehuddin M, and Pandian V. (2017) “Face recognition based real time system for surveillance.” Intelligent Decision Technologies, IOS Press, 11 (2017): 79minus;92.
[3] Ouanan H, Ouanan M, and Aksasse B. (2018) “Pubface: Celebrity face identification based on deep learning.” IOP Conference Series: Materials Science and Engineering, IOP Publishing Ltd., 353 (1): 1minus;6.
[4] Fei Z, and N de With. (2005) “Real-time face recognition for smart home applications.” International Conference on Consumer Electronics, Las Vegas, USA, 8minus;12 January, IEEE Press, pp. 35minus;36.
[5] D Cherifi, R Kaddari, H
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[262429],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。