英语原文共 13 页
用于移动视觉辅助系统的无约束环境中的人脸检测和识别
摘要
我们提出了一种视觉辅助系统,该系统在移动源的无约束环境中使用卷积神经网络进行移动面部检测和识别。该系统的目标是有效地检测面向配备该系统的人的个人。我们发现,由于用户的移动导致相机抖动导致视觉辅助系统的输入中的运动模糊和噪声,因此面部检测和识别成为非常困难的任务。由于相关数据集的不足,我们创建了一个从移动源捕获的视频数据集,其中包含运动模糊和来自相机抖动的噪声。这使得应用程序成为无约束环境中面部检测和识别的极具挑战性的方面。进一步将卷积神经网络的性能与级联分类器进行比较。结果表明在日光和人工照明条件下具有良好的性能,而月光条件的挑战在于需要减少误报以开发稳健的系统。我们还提供了一个框架,用于实现具有智能手机和可穿戴设备的系统,用于视频输入和系统的听觉通知,以指导视障人士。
关键词:辅助系统 计算机视觉人脸检测 人脸识别 移动计算
第1章 简介
计算机视觉算法在模式识别和运动分析等问题中执行一些计算量最大的任务[1]。 由于需要在大规模应用中处理的数据量,简单对象检测算法[2,3]需要大量的计算能力。 现代台式计算机能够实时执行这些应用程序,无论如何,移动应用程序面临的挑战是处理产生热量并快速消耗电池电量的计算密集型任务。 现代计算机能够在没有任何重大问题的情况下实时执行这些程序,而由于电池电量的限制和产生热量的繁重计算,移动应用面临挑战。 移动设备可以在构建应用程序时充分利用实际计算机视觉应用程序的全部功能,同时考虑到它们面临的局限性[4]。
移动物体检测系统由于其便携性而具有广泛的应用[5,6]。虽然一般检测静态物体是一项相对容易的任务,但检测到移动物体更具挑战性[1]。移动物体检测的一些例子是残疾人[6]和虹膜识别系统[5]的辅助系统。在计算机视觉应用中包含运动包含主要困难,包括模糊,恒定比例和位置变化,障碍物和照明变化[3]。需要先进的检测方法,如神经网络来解决这些挑战,希望获得满意的性能[7,8]。 SmartVision原型[9]是基于移动的辅助系统的一个例子,为残疾人提供导航。它结合了计算机视觉,地理信息系统和全球定位系统,用于物体,障碍物和路径检测。此外,威利斯等人。提出了一个基于移动的辅助系统,允许用户使用射频识别(RFID)标签网格[10]导航环境。该标签网格具有使用周围环境的坐标和描述编程的RFID标签,用于向用户提供导航。此外,已经提出了一种移动虹膜识别系统,其中系统提供了瞳孔和虹膜分割,检测率为99%[11]。
神经网络由称为神经元的互连处理器组成,这些处理器在生物神经元之后被松散地建模[8]。卷积神经网络(CNN)是专门用于图像识别任务的专用神经网络[12]。其中一些包括面部检测,表情识别,物体检测和物体识别[13-15]。
CNN非常适合于包括识别和检测在内的难题[12],也可以应用于大规模视频分类问题[16]。然而,它们主要用于受限和室内视觉应用,这些应用不会出现由移动相机引起的运动模糊和噪声问题。因此,面临的挑战是将它们部署到移动设备上。基于云的支持系统可以解决这个可移植性和计算能力的问题,但是,实时实现需要良好的互联网质量。虽然移动面部检测和识别已经越来越流行[17],但我们通过文献收集到,在无约束环境中移动面部检测和识别方面的工作尚未完成[18,19]。移动面部检测和识别包括来自静止主体和移动主体的移动源的检测和识别,这导致包含运动模糊和噪声的输入。
本文提出了一种视觉辅助系统,该系统在使用CNN的移动源的无约束环境中具有移动面部检测和识别功能。该系统的目标是有效地检测和识别接近面向配备该系统的人的个人。由于相关数据集的不足,我们提供了一个从移动源捕获的视频数据集,其中包含来自移动摄像头的无约束环境中的运动模糊和噪声。这使得应用程序成为无约束环境中面部检测和识别的极具挑战性的方面。使用CNN和级联分类器在不同的照明条件下评估检测和识别问题的性能,所述照明条件包括人造光,日光和月光。
所提出的方法有助于建立一个更大的系统,旨在通过移动面部检测和识别来帮助视障人士。我们还提供了一个框架,用于实现具有智能手机和可穿戴设备的系统,用于视频输入和系统的听觉通知。本文扩展了以前的工作,重点是CNNs [20]和移动应用框架[57]的人脸检测。
本文的其余部分安排如下。我们在第2节介绍了背景和相关工作,并在第3节介绍了移动视觉辅助系统。第4节描述了实验设计,并介绍了实验结果。第5节给出了讨论,第6节总结了本文的未来工作方向。
2.背景和相关工作
2.1人脸检测和识别
人脸检测和识别是通过计算机视觉算法验证给定环境中人脸的过程,通常涉及机器学习[15,19]。基于面部特征,新兴技术和学习算法,人脸识别在各种条件下进行[18,21]。其中一些方法使用新兴技术,如红外相机[22],涉及三维人脸识别系统[23]。本文的一些相关方法讨论如:
Ortiz等人提出了一个识别系统,该系统使用来自Facebook社交网络的800,000个网络级人脸图像的自定义数据集,使用基于线性近似稀疏表示的分类算法(LASRC)进行人脸识别[24]。与稀疏表示分类(SRC)算法相比,LASRC实现了100-250倍的加速,并且在不受控制的网络规模设置中也优于高级识别算法,其中图像被缩放到适合在互联网上使用的尺寸。 Raghavendra等人。提出了一个由面部和语音模块组成的系统,用于执行验证[25]。面部模块使用主成分分析(PCA)算法的组合进行特征提取[26,27]。语音模块利用文本独立说话者验证,使用倒谱系数进行特征提取,使用高斯混合模型进行意见生成。此外,Pong等人。开发了一种使用多分辨率特征融合的人脸识别系统[28]。该系统使用来自高分辨率和低分辨率的面部图像的信息来改善存储在提取的特征中的数据。然后使用遗传算法将特征组合成单个载体用于识别,因为这些特征彼此相关并且用相关方法显示出有希望的结果。
使用图像进行人脸识别会出现诸如姿势,光照和比例变化等问题[18,29]。因此,基于视频的识别减少了这些问题,因为它们可以具有特定场景的多个图像(视频帧),并且之前已经有效地用于检测和识别面部表情[30,31]。 Stallkamp等人。提出了一个基于视频的实时人脸识别系统,该系统识别通过实验室门进入的人[29]。参与实验的受试者被要求不与系统合作以创建具有挑战性的识别方案。挑战包括由于照明,姿势,表情和遮挡引起的面部外观的连续变化。使用基于外观的识别算法完成面部分类。作者介绍了三种不同的测量方法来确定每个单独框架对整体分类决策的贡献,并报告了一个封闭集(在数据库中登记的对象)使用k近邻法的正确分类率为92.5%,使用高斯分析时为91.8%。混合模型。 Gorodnichy提出了另一种基于视频的视频人脸识别框架[32]。这项工作明确区分了从图像中获取的面部数据和从视频中获取的面部数据。它们被认为是两种不同的形式,一种提供硬生物识别,另一种提供更柔和的生物识别。还表明,计算机和人类可以识别出眼睛之间至少有12个像素的面部图像。引入了由11人组成的视频数据库,实验显示识别率超过95%。
基于视频的对象检测和识别系统通常具有用于摄像机的固定位置,其提供视频帧作为输入。然而,诸如自动驾驶系统和行人检测系统的一些应用也包括移动输入源[33,34]。这些情况可能通过引入运动模糊并且由于源也在移动而使输入帧失去对目标的跟踪而增加检测和识别场景的复杂性。莱文森等人。提出了一种自动驾驶系统,专注于在现实条件下的自动驾驶[33]。自动驾驶汽车能够在驾驶时跟踪和分类障碍物,如骑自行车者,行人和车辆。它还能够在白天或晚上运行,并且不受天气条件的影响。加夫里拉等人。提出了一种用于行人检测和跟踪移动车辆的多线索视觉系统[34]。在困难的城市交通条件下的实验显示正确的识别百分比为62-100%,每分钟0.35次假分类。无约束的人脸识别考虑了各种各样的情况,其中主体是移动的,图像和视频包含噪声以及不同照明条件的变化。考克斯等人。提出了一种无约束的人脸识别方法,该方法在野外标记面(LFW)[17]无约束人脸识别挑战集[35]中实现了高性能。作者通过将机器学习方法与使用强力搜索生成的特征表示相结合来实现这一性能。而且,丁等人。提出了一种新的方案,从面部图像中提取多方向多层双交叉模式(MDML-DCP),用于无约束的人脸识别,对于光照,姿势和表达的变化具有鲁棒性[36]。该方案使用高斯算子的一阶导数来减少光照变化的影响并计算DCP(基于人脸的纹理结构的面部图像描述符)特征。
2.2卷积神经网络
CNN的基本思想来自于Hubel和Wisel在1962年对视觉皮层的研究[37]。他们的工作确定了简单的细胞和复杂的细胞,这些细胞随后会与CNN中使用的滤波器组层和汇集层相关。第一个基于计算机的CNN模拟由Kunihiko Fukushima于1980年完成[38]。这个被称为Neocognitron的网络是自组织的,基于其形状的几何相似性识别模式,同时保持不受小形状扭曲的影响。它改进了以前的Cognitron网络的性能[39],它依赖于位置的变化而变得不变。
CNN用于面部检测和表情识别系统,该系统独立于主体并且能够抵抗面部表情的定位,旋转和比例的差异[13]。结果显示,具有“微笑表情”的面部的识别准确度为97.6%,并且该系统能够区分“微笑”和“说话”面部。 Ciresan等人。提出了一种物体检测和识别系统,该系统使用图形处理单元(GPU)来实现CNN,并包括以监督方式学习的特征提取器[14]。基于GPU的计算允许系统快速,而网络的参数化特性使其可以使其适应特定应用。实验在基准数据库[40-42]上执行,具有非常有前景的错误率。几种CNN训练算法和架构进一步降低了MNIST数据库的错误率(研究人员在基准数据库上实现的最低值),后来又开发出来[43,44]。最近的工作已经开发出使用CNN的新应用,方法和系统。例如,Sun等人。提出了一种面部点检测系统,其中用于面部点检测的级联回归方法与三个级别的CNN一起使用[15]。第一级使用深CNN进行准确预测,而接下来的两级使用浅CNN来细化关键点的初始估计,从而获得高精度。每个级别的多个CNN被融合以提高估计的准确性和可靠性。实验表明,新方法在准确性和可靠性方面优于最先进的方法。除图像处理外,CNN还应用于其他领域,如视频分类和语音识别[16,45]。 Karpathy等。采用CNN进行大规模视频分类[16],使用了属于487类体育的100万个YouTube视频的数据集。 CNN架构以两种空间分辨率处理输入,作为在不影响精度的情况下提高运行时性能的方法。这些分辨率由低分辨率上下文流和高分辨率中央凹流组成。实验报告的准确率为63.3%,提高了之前的准确率43.9%,并表明学习的特征是通用的,并推广了其他视频分类任务。此外,Sainath等人。提出了一种用于语音识别的CNN [45],该架构使得它们与用于大词汇量连续语音识别的深度神经网络(DNN)相比更有效。结果表明,与高斯混合模型(GMMs)相比,CNN能够实现13-30%的相对改进,相对于DNN,相对改善4-12%。
2.3.级联分类器
级联分类器是使用一系列分类器进行决策的集成学习方法。它们基于几个分类器的串联,其中从给定分类器的输出收集的所有信息被用作级联中下一个分类器的附加信息[7]。级联分类器中的级联是指从许多较小的分类器(称为阶段)创建的结果分类器,它们顺序应用于特定区域[46]。级联中的每个阶段都做出决定最终输出的决定。它们适用于移动设备,因为它们具有较低的计算要求[7]。Viola和Jones在2001年提出了级联分类器作为人脸检测问题的对象检测框架[7]。他们引入了一种称为积分图像的图像表示,可以快速计算探测器使用的特征。基于Ada-Boost的学习算法[47]用于从重要的视觉特征中获取分类器。它可用于创建增强分类器,这是在使用增强技术从简单分类器创建的级联的每个阶段的分类器[48]。提出了一种将分类器组合成级联结构的方法,以提高检测速度。级联分类器具有以极快的速度计算特征的优点,并且在选择特征时也是有效的,因为在早期阶段消除了误报,减少了后期阶段所需的计算时间[7]。它们对于比例和位置变化也是不变的。此外,级联分类器的一般性质允许它们被训练用于检测其他类型的对象而不仅仅是面部[49]。然而,级联分类器也具有诸如对正面图像最有效的限制。此外,照明条件会影响性能,因为光量可以确定是否检测到特征。它们对被检测物体的旋转变化也很敏感[19]。
3.移动视觉辅助系统
在无约束环境中提出的面部检测和面部识别是通过旨在帮助视障人士的移动应用程序的移动视觉辅助系统的一部分。我们首先描述系统的体系结构及其交互,然后提供它们的实现细节。我们注意到主要组件是智能系统模块,可以使用CNN或级联分类器来实现,具体取决于它们在下一节中的模拟性能。整个系统在图1中进一步描述。我们采用基于云的支持系统来训练所选组件的特征计算。学到的知识通过特定的数据传输协议传输到移动设备,以确保安全性和可靠性。通过这种方式,培训在云计算基础设施中执行,有助于消除移动设备中高计算任务的功耗和发热所面临的问题[14]。
移动视觉辅助系统的设计目标是为具有摄像头输入功能的低端移动设备实施。系统有两种操作模式,即实时和安全模式。在实时模式中,用户可以是静止的或移动的,来自可穿戴设备的实时摄像头(摄像头输入)的输入。可穿戴设备包括通常安装在眼镜框架上的相机,该眼镜框架连接到移动设备,该移动设备访问基于云的支持系统上的智能系统模块。当帧准备好被处理以进行检测或识别时,输入图像被识别,该决定通过使用文本到语音模块的耳机定期通知用户。在安全模式下,移动应用程序在基于云的支持系统中被切断,这可能是由于缺乏Internet连接。但是,它能够通过本地模块进行检测和识别,如下所述。智能系统模块由检测模块
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。