英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
用于人脸检测的卷积神经网络级联
李浩祥 哲林 沈小慧 乔纳森·布兰德 华刚
摘要——在实际生活的人脸检测中,视觉上大的变化,比如由于姿势,表达和照明的影响,需要一种先进的辨别模式从这些背景中来准确区分人脸。因此,在此问题上的有效模型往往在计算上是不能实现的。为了解决这两个相互矛盾的问题,我们提出了一个基于卷积神经网络的级联架构(CNNs),它具有非常强大的辨别能力,同事又保持了高性能。提出的CNN级联以多种分辨率运行,在快速低分辨率阶段忽略背景区域,并在最后一个高分辨率阶段仔细评估少数具有相似的候选人。为了提高局部化效果,并且在后期减少候选人的数量,我们在级联中的每个检测阶段之后引入基于CNN的校准阶段。每个校准的输出用于调整检测窗口的位置,用以输入到后续阶段。所提出的方法在单CPU核心上以14FPS运行,用VGA分辨图像,使用GPU的100FPS,并且在两个公共人脸检测基准上实现最先进的检测性能。
- 介绍
人脸检测是计算机视觉中一个很好的研究课题。现代脸部检测器可以很容易地检测到正脸周围。最近在这方面的研究更多地集中在不受控制的面部检测问题上,其中许多因素如姿势变化,夸张的表情和照明可导致面部外观的大的视觉变化,并且可能严重降低面部检测器的鲁棒性。
面部检测的困难主要来自两个方面:1)混乱背景下人脸的大视觉变化; 2)可能的脸部位置和面部大小的搜索空间。前者需要面部检测器准确地解决二进制分类问题,而后一种则进一步强调了时间效率要求。
自从Viola等人的创作以来[27],具有简单特性的增强级联成为使用面部检测最流行和最有效的设计。功能的简单性能可以快速评估和快速排出早期假阳性检测。同时,增强的级联构建了一个简单特性的集合,以准确的实现面部与非脸部识别。原始的Viola-Jones脸部检测器使用了Haar特征,该功能可以快速评估,而且对于正面的脸部具有足够的识别能力。然而,由于哈尔功能的简单性质,在不受控制的环境中,脸部呈现不同姿势,在意想不到的照明下的表现,相对较弱。
在过去的十年来,提出了一些对Viola-Jones脸部检测器的改进[30]。他们大多遵循提升的级联框架,具有更高级的功能。高级功能以额外的计算为代价有助于构建更精确的二进制分类器。然而,可以减少实现类似检测精度所需的级联级数。因此,由于较少的级联阶段,整体计算可能保持不变,甚至降低。
这一观察结果表明,只要假阳性检测能够在早期阶段迅速被拒绝,就可以在实际的面部检测解决方案中应用更先进的特征。在这项工作中,我们提出将卷积神经网络(CNN)[13]应用于面部检测。与以前的手工制作功能相比,CNN可以通过利用大量的训练数据自动学习功能来捕获复杂的视觉变化,并且可以在GPU内核上轻松并行加速测试阶段。
考虑到CNN的相对较高的计算费用,用深CNN彻底扫描多个尺度的全图像不是一个实际的解决方案。为了实现快速的面部检测,我们提出了一种CNN级联,它可以在早期低分辨率下快速的防止错误检测,并仔细验证后期高分辨率阶段的检测。我们认为,这种直观的解决方案可以胜过面部检测中的最先进的方法。对于典型的VGA尺寸图像,我们的检测器在单CPU内核上以14 FPS运行,GPU卡上运行100 FPS[1]。
在这项工作中,我们的四重贡献是:
bull;我们提出一种CNN级联快速面部检测;
bull;我们在级联中引入基于CNN的面对边框校准步骤,以加速CNN级联并获得高质量的本地化;
bull;我们提出了一种多分辨率CNN架构,比单分辨率CNN更具识别性;
bull;我们进一步改进了人脸检测数据集和基准(FDDB)[7]的性能。
- 相关工作
2.1基于神经网络的人脸检测
1994年初Vaillant等 [26]应用神经网络进行面部检测。在他们的工作中,他们提出训练卷积神经网络来检测图像窗口中是否存在脸部,并在所有可能的位置用网络扫描整个图像。1996年,Rowley等[22]提出了一种用于正面人脸检测的视觉连接神经网络。该方法在1998年晚些时候被扩展用于旋转不变人脸检测[23],使用“router”网络来估计方向并应用适当的检测器网络。
2002年,加西亚[5]开发了一个神经网络来检测复合图像中的半正面人脸; 在2005年Osadchy等人[20]训练了卷积网络,用于同时进行脸部检测和姿态估计。
这些检测器在基准测试中如何在不受控制的环境中表现,如今并不清楚。然而,鉴于CNN[13]针对图像分类[24]和对象检测[3]的最新突破结果,值得重新审视基于神经网络的人脸检测。
最近的基于CNN的检测方法之一是Girshick等人的R-CNN[6] 。已经达到2012年VOC的最新成果。R-CNN遵循“识别使用范围”范式。它生成类别独立区域提案,并从区域中提取CNN功能。 然后,它应用类特定的分类器来识别提案的对象类别。
与一般物体检测任务相比,不受控制的面部检测呈现出不同的挑战,使R-CNN方法直接应用于面部检测变得不切实际。例如,由于小尺寸面孔和复杂的外观变化,一般的对象提议方法可能对面部无效。
2.2在不受控制的环境中进行人脸检测
以前的不受控制的脸部检测系统大都是基于手工制作的。自从ViolaJones开创性的面部检测器[27]以来,提出了一些用于实时面部检测的变体[10,17,29,30]。
最近在提升级联的简单特征框架下,Chen 等人[2]提出使用形状索引特征来共同进行面部检测和面部对齐。与这个想法类似,我们在我们的框架中有了校准和检测的替代阶段。考虑到细胞神经网络的一些视觉任务,包括脸部对准[31]的成功,我们的框架是在更一般的,我们可以采用基于CNN脸比对的方法来实现联合脸比对和检测,我们使用CNN学习面部具有更健壮的功能。
张伟[32]和Park等人[21]在一般物体检测中采用多分辨率思想。在分享类似技术的同时,我们的方法利用CNN作为分类器,结合面部检测的多分辨率和校准思想。
另外,基于零件的模型也促成了一些面部检测方法。Zhu等人[33]提出了可以同时实现姿态估计和面部地标定位的面部检测树结构模型。Yan 等人[28]提出了面部检测的结构模型。Mathias等人[19]表明,经过精心训练的可变形零件型模型[4]达到了最先进的检测精度。
与这些基于模型的方法不同,Shen等人[25]提出通过图像检索来检测人脸。Li 等人[15]进一步将其改进为具有先进性能的基于标准的面部检测器。
与这些面部检测系统相比,我们的工作直接从图像中学习分类器,而不是依靠手工制作功能。因此,我们受益于CNN学习的强大功能,以更好地区分面对高度混乱的背景。同时,我们的检测器比基于模型和基于示例的检测系统快了许多倍,并且具有与具有简单特征的经典升压级联相当的帧速率。共享CNN的优点,我们的检测器很容易在GPU上并行化,可以更快地进行检测。
- 卷积神经网络级联
我们在这里介绍我们的检测器的具体设计,以便对所提出的方法进行清楚的解释。实际上,CNN级联可以有不同的设置来进行精度计算的交换。
图1:我们检测器的测试管道:从左到右,我们显示了检测窗口(绿色方块)如何在我们的检测器中逐级进行缩减和校准。探测器运行在单个刻度上,以便更好地观察。
3.1整体框架
我们的面部检测器的整体测试流程如图1所示,我们简要解释工作流程,并将在后面详细介绍所有的CNN。
给定一个测试图像,12-net将不同尺度的整个图像密集扫描,以快速排除超过90%的检测窗口。其余的检测窗口由12个校准网逐个处理为12times;12个图像,以调整其尺寸和位置用来接近附近的潜在面。
应用非最大抑制(NMS)来消除高度重叠的检测窗口。剩余的检测窗口被裁剪出来,并被调整为24times;24作为24-net的输入图像,以进一步拒绝剩余检测窗口的近90%。与以前的过程类似,剩余的检测窗口由24校准网络进行调整,我们应用NMS进一步减少检测窗口数量。
最后48-net将传递的检测窗口接收为48times;48图像,以评估检测窗口。NMS消除了重叠检测窗口,其中交叉联合(IoU)比率超过预设阈值。然后应用48校准网络校准剩余检测边界框作为输出。
-
- CNN结构
级联中有6个CNN,包括3个面向对面二进制分类的CNN和3个用于边界盒校准的CNN,被称为离散位移模式的多类分类。在这些CNN中,没有具体说明,我们遵循AlexNet [12]在池化层和全连接层之后应用ReLU非线性函数。
-
-
- 12-net
-
12-net是指测试结构中的第一个CNN。该CNN的结构如图2所示。12-net是一种非常浅的二进制分类CNN,用于快速扫描测试图像。对于12times;12检测窗口,以4像素间隔强制扫描尺寸为Wtimes;H的图像相当于将12-net应用于整个图像以获得(b(W-12)/ 4c 1)times;(b (H-12)/ 4c 1)信心分数图。置信度图上的每个点都是测试图像上的12times;12检测窗口。
在实践中,如果可接受的最小面部尺寸为F,则测试图像首先内置到图像金字塔中以覆盖不同尺度的面部,并且将图像金字塔中的每个级别的大小调整为12 F作为12-net的输入图像。在单个CPU内核上,以4像素间隔密集扫描尺寸为800times;600的40times;40面的图像,需要12个网格,小于36ms,生成2个494个检测窗口。GPU卡上的时间减少到10 ms,其中大部分是数据准备中的开销。
图2:12-net,24-net和48-net的CNN结构
-
-
- 12-net校准
-
12-net校准是指12-net后的CNN用于边界校准。结构如图4所示。12-net校准是浅的CNN。N个校准图案被预先定义为一组三维缩放变化和偏移向量。给定一个检测窗口(x,y,w,h),其大小为(w,h)的(x,y)左上角,校准模式将窗口调整为
(1)
在这项工作中,我们有N = 45种图案,由各种组合形成
给定一个检测窗口,该区域被裁剪出来,并被调整为12times;12作为12-net校准的输入图像。校准网络输出一个置信度分数矢量[c1,c2,...,cN]。由于校准模式彼此不正交,所以我们将高置信度分数模式的平均结果作为[s,x,y]的调整,即
(2)
(3)
(4)
这里t是过滤掉低信度模式的阈值。
在我们的实验中,我们观察到12-net和12-net校准拒绝92.7%的检测窗口,同时在FDDB上保留94.8%的调用(见表1)。
-
-
- 24-net
-
24-net是进一步减少检测窗口数量的中间二进制分类CNN。将12个校准网的剩余检测窗口进行裁剪,并调整为24times;24幅图像,并通过24位网络进行评估。CNN结构如图2所示。
选择类似的浅层结构进行时间效率。此外,我们在24-net中采用多分辨率结构。除了24times;24输入外,我们还将12times;12分辨率的输入馈送到与24-net,12-net相同的子结构。12层子结构的全连接层连接到128路输出全连接层,如图2所示。采用这种多分辨率结构,24-net由12times;12 有助于检测小面孔的分辨率。整体CNN变得更加具有识别力,12-net子结构的开销只是整体计算的一小部分。
在图3中,我们比较了24-net中多分辨率设计的检测性能。我们观察到,在相同的回调率下,具有多分辨率结构的回归率可以实现相同的回调水平,而较少的错误检测窗口。高回调水平的差距更为明显。
图3:在Wild数据集中的注释面上,具有和不具有多分辨率结构的24网络的检测性能
-
-
- 24-net校准
-
与12-net校准类似,2
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[485849],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。