基于子空间的人脸检测系统设计外文翻译资料

 2022-10-11 19:50:44

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


IEEE期刊交易模式分析与机器智能,VOL.29,NO. 4,2007年4月 671

高性能旋转不变多视角人脸检测

Chang Huang,学生会员 , IEEE, Haizhou Ai, 会员, IEEE,Yuan Li, and Shihong Lao,会员, IEEE

摘要--旋转不变多视点人脸检测(MVFD)旨在以检测与脸部任意旋转式平面(RIP)和旋转偏离平面(ROP)角在静止图像或视频序列。MVFD作为在通用应用的自动脸部处理的第一步是很关键的,因为面部图像很少保持直立和正面,除非它们被按要求协作地拍摄。在本文中,我们提出了一系列创新性的方法来构建一个高性能的旋转不变多视角人脸检测,包括宽度优先搜索(WFS)树探测器结构,矢量学习向量输出强分类推进算法,以弱学习方法为基础的域的划分法,在颗粒空间的稀疏特征,以及稀疏特征选择的启发式搜索。所以,我们的多视角人脸检测器实现了低计算复杂度,宽广的检测范围,在两个标准测试集和生活实际的图像检测精度高。

关键词:模式分类,AdaBoost算法,矢量推进,颗粒特性,旋转不变,人脸检测。

  1. 绪论

在过去的几十年中,我们见证了运用强大的计算机视觉系统进行人机交互(HCI)的爆发性的活动,。脸包含人类非常重要的生物信息,在图像和视频中是一个非常有趣的对象。当然,人脸检测,即在一开始就定位人脸区域,被视为任何人脸自动处理系统的基本组成部分。同时,它是一个具有挑战性的工作,因为开发强大的面部检测器是困难的,不仅是因为人脸的多样性(例如,尺寸的变化,位置,姿势,方向和表达),而且还受环境条件变换的影响(例如,照明,曝光,遮挡等)[1]。

一般来说,主要有两种方法进行人脸检测任务:一个是基于知识的方法,另一种是基于学习的方法。基于知识的方法试图用一些明确的规则描绘我们的关于面部图案的先验知识,如脸部的亮度,椭圆型脸部轮廓,眼睛和嘴的等边三角形关系 [2],[3]。不幸的是,将所有人类知识转化恰好成可由计算机准确理解那些需要明确的规则是不可能的。因此,当规则不能匹配不寻常的脸或匹配太多背景瑕疵时这种类型的方法往往表现不佳。在另一方面,基于学习的方法,其中的代表有Osuna等的SVM方法[4],Rowley等人的ANN法[5]和Schneiderman和Kanade

的贝叶斯规则方法[6],尝试在概率框架下使用分布函数或判别函数的对面部图案进行建模。这种方法不受我们脸部可描述的知识的限制,而是由学习模式的能力和训练样本决定的,从而与基于知识的方法相比,能够处理更复杂的情况。具体来说,基于学习方法的突破发生在2001年,Viola和Jones提出了一个新颖的提振级联[7]框架。这项工作展示了惊人的实时速度和较高的检测精度。人们通常将这项工作所取得的成绩归功于通过积分图像和AdaBoost的分类级联结构快速计算Haar-like特征。这里,为了进一步的分析,我们将其框架分解成自顶向下的四个阶段于表1。

表1 Viola and Jones 探测器的层次

这种方法基于的前提是,在普通图像的脸和背景区域中存在发生率的显著差异,Viola和Jones通过非对称级联模型,这种模型是一系列用AND逻辑运算符连接的的强分类器,并且每个分类器对脸和非脸类别提出不平衡的决策。因此,大部分的背景区域可以被前几个分类器用很少的计算快速排除.为了学习这样的强分类器,他们所采用的是AdaBoost算法[8],能有效地结合许多弱分类器,充当特征选择机制,并保证对最终分类很强的概括边界。最后,在底层,他们列举了大量的基于积分图像上Haar-like特征并与相应的树状函数联系起来,以形成一个冗余弱分类池,这为AdaBoost算法提供基本的辨别力。所有这些积极的因素被Viola和Jones有效地组织起来,以产生它们在人脸检测[7]的杰出工作。

虽然到目前为止,正面人脸检测似乎已经成熟,但它往往不足以满足一般应用程序的严格要求(例如,视觉的监视系统,需要自动聚焦人脸的数字设备等),因为在实际生活图像中人脸是很少是保持竖直和正面的。当然,多视点人脸检测和旋转不变的人脸检测被定义为处理ROP和RIP角度的人脸,分别为(图1)。然而,这两个都因为人脸检测范围扩大成为更艰巨的问题。特别是,多视点人脸检测比旋转不变的一个更复杂,因为与正脸相比,侧面往往包含更少的信息,更加多样化,并且对噪声更敏感。此外,如图1所示,ROP和RIP人脸普遍的相伴更进一步增加了学习一个人脸检测器的困难。

图1 ROP和RIP脸部的分开展示和结合展示

近年来,有很多工作来发展新的方法,在某些方面来增强Viola和Jones的框架。例如,检测器结构延伸到Li等人的金字塔模型[9],Viola和Jones的决策树[10],和Huang等人的宽度优先搜索(WFS)树[11],来迎合多视点人脸检测,而萧等人的Boosting链[12] 和Wu等人的嵌套级联模型[13]将Viola和Jones的宽松级联模型[7]转换成更紧凑的。在强分类器学习阶段,原AdaBoost算法采用二进制输出预测,被先进的实时AdaBoost[14]和采用信赖级预测器的温和Boost取代。此外,通过对特征空间的更细划分来减少stump函数的弱点,如Liu和Shum的直方图法[16],Wu等人的分段函数[13],以及Mita等人的Haar-like特征[17]的二值化。至于特征空间那一级,已经有Lienhart和Maydt的扩展的Haar-like特征集 [18],Liu和Shum的Kullback-Leibler特征[16],Baluja的成对点[19],Wang和Jin的RNDA算法[20]和Abramson 跟 Steux的的控制点[21]。更多这些的细节可以在下面的章节中找到,并且进行了比较。

在本文中,我们的目标是构建一种快速,准确的旋转不变的多视点面部检测器,其能够检测脸部姿势变化角度theta;=正负90ROP(Yaw)和360°RIP(Roll)。此外,容错=正负30°上下(间距)的变化结合起来,以符合监控环境。我们的主要贡献包括宽度优先搜索(WFS)树结构,矢量Boosting算法,在粒度空间稀疏的特性,以及基于启发式搜索方法的弱学习器。本文的其余部分安排如下:第2节的重点是已存在的检测器结构的比较,然后介绍WFS树结构,第3节介绍的简要回顾前面矢量Boosting算法——经典AdaBoost算法,第4节首先讨论了不同类型的特征的影响,然后提出了粒度空间稀疏的特点,最终体现了采用启发式搜索的方法来训练矢量Boosting的弱学习器,第5节展示了最近的实验结果,第6节给出了结论。

  1. 宽度优先搜索(WFS)树结构

2.1相关工作

Viola和Jones的级联结构[7],如图2a所示,已经证明了能非常有效的处理罕见事件的检测难题,比如因为不对称的决策过程的人脸检测。然而,这样的简洁结构不具有足够的能力来处理多视点或旋转不变的人脸检测,它们都涉及两个不同的任务:人脸检测和姿态估计。人脸检测的目的是从非人脸区分面,所以它是倾斜的,以利用快速排斥非人脸的不同姿态的面之间的相似性;相反,姿态估计是识别图案的可能姿态不管它是否是一个面或没有,所以它试图对不同的脸姿势之间的多样性,但忽略了非人脸。

统一或分离这两个任务会导致不同的方法。Osadchy等人的manifold方法[22]可作为统一框架的一个例子。卷积网络被训练的来标记出脸部的位置,它的参数指示的姿势变化,同时将非脸部的位置远离流型图。通过这种方式,定义在流型上的最小化能量函数基本上能处理多视点面部检测的两个任务的同步过程。另一方面,对于已分离的框架内,在整个面部的范围通常是根据它们的RIP或ROP角度分成几个单独的类别。这种分离的框架也被称为基于视角的方法,因为每一类通常是指面部的一定的视角。

实现基于视角的方法最直接的就是Wu等人的工作[13]方法,其中为每个视角单独训练不同的级联器,并用它们并联作为一个整体,如图2B所示。虽然这种简单的并行级联策略可以在多视点面部检测有良好的成果,的不同视角之间的存在的脸部未开发的关系建议通过更好地设计的检测器结构来进行的大量的改进。

改进的一种方式是由粗到细的策略。在[23],花剑和格曼采用标量树检测器(图2c),以适应位置和面的规模的大变化,而Li等人[9]用金字塔来处理在MVFD(图2d)外观的巨大变化。尽管它们的结构是有点区别的,他们都将复杂的整个脸部空间划分为越来越细的子空间。在更高级别的结构的,相邻视角被分配到单个节点,因此,对应的脸被视为一个集合的类,以便从非人脸分离。这种方便的组合的确有助于提高工作效率和提取特征的可重用性,因为在相邻视角的脸部存在相似之处,但在这里也忽视了它们之间的内在多样性(虽然他们邻近的视角)。其结果是,已被确定为面对一个节点的样本必须由它的每一个子节点进行处理,因为它在相应的视角不存在歧视。换句话说,这一决定是为子节点一致:要么所有有效或全部无效。这种全通选路策略大大推迟了输入模式的整个面部识别程序。

相反,另一种方式的改进,决策树方法[10],注重对不同视角的多样性。 Adecision树被训练成姿势估计,来判断输入模式属于哪种视角,随后对每个视角通过单独学习型级联探测器,分别为(图2e)。类似的“姿态估计 检测”的方法在[29],雇用支持向量机,而不是决策树。随着姿势估计做出的必要的判断,原来复杂MVFD问题减少到几个简单的独立视角中。然而,有时评估结果有些不稳定,这削弱了整个系统的泛化能力。不稳定部分应归因于这样一个事实:人脸姿态变化是一个持续的过程,而不是一个离散的。事实上,必须有大量的人脸样本接近人为定义的类别边界,而且,凭直觉,分类器的训练与这些“硬”的界限经常遭受一些模棱两可的样本。从另一个角度来看,快速、强大的姿势估计应用在人脸检测可能是比人脸检测本身更加困难的问题。

总之,正如本节开始时提到的,姿势估计关注的是不同的视角的多样性,而人脸检测需要找到不同视角的相似之处来尽快排除非人脸。这样的冲突最终在基于视角的方法中导致了困境,同时对待所有人脸为一个类(金字塔方法)或不同的单独的类(决策树方法)是MVFD令人不满意的问题。幸运的是,一个温和的方法,宽度优先搜索(WFS)树,可以用来协调两个任务(姿势估计和人脸检测),在不同视角的之间平衡这两个方面(多样性和相似性)。

图2 不同检测器的结构

(a)是Viola和Jones的正面人脸检测原始级联结构。采用基于视角的策略,以应对MVFD问题,一些检测器结构的开发,包括(b)Wu等人的并行级联[13],(c)的Fleuret和Gemanrsquo;s标准树[23],(d)Li等人的金字塔[9],(e)Jones和Viola的决策树[10],和(f)黄等人的宽度优先搜索(WFS )树[11]。

2.2 WFS树型检测器

在我们第1部分中描述的旋转不变多视角人脸检测的方法中,首先是构建了一个多视角人脸检测器,覆盖卷和全部偏转的竖直的四分之一,然后三个探测器由竖直的那一个旋转90°,180°和270°获得(图3)。从一个旋转不变的检测器减少分割成四等分的,使得我们的系统高度可伸缩(例如,在很少遇到颠倒的人脸的应用中,旋转检测器可以容易地关闭)。我们进一步将四等分直立脸部空间根据左右偏转和上下摇动(图4)分成15个基本视角,然后凭经验将它们组织成如图5中所示的树。根节点包括所有15个视角,它覆盖了整个脸部四等分空间。在接下来的两个层,根据偏转角度,逐渐划分为五个相互脱节的根分支节点。最后,在底层,这五个分支节点根据上下摇动角度分割成15个叶子节点,获得最好的15个。在这样的树结构的检测器,一个输入模式被确定为一个脸部,它当且仅当通过从根节点到一定的叶节点的至少一个路径。因此,宽度优先搜索(WFS)的策略是访问通过路径的每一个有可能的节点的正确方法,其伪代码如图6所示。注意,对于与多个视角相关的图案,姿态估计根据确认每个视角判断最终结果。

图3 旋转不变多视角人脸检测的降解 图4在多视点直立人脸检测的视角定义

图5 由粗到细的结构化树脸部范围的划分探测器

在图6的WFS策略的一个非凡的特点是决定性的矢量G(x),其中每个分量判定输入图案是否应该被发送到相应的子节点。与上一节中列出的其他相关工作相比,这个决定性向量是更灵活通用的,既不限制为专属Jones和Viola的决策树[10],也不是统一的Fleuret和Geman的标准树[23]和Li等人的金字塔[9]。例如,在图5根分枝节点,一个输入图案生成矢量G(x)=(1,1,0),第0表明它可能

是左轮廓脸部或正面之一,但不能是一个右侧面。所以在下面的层中,将只发送到左节点和中间的一个。有另一种模式G(x)=(0,0,0)是将脸部的任何视角列为外围,因此将被立即拒绝。其实,面部的不同视角仍被视为WFS树的不同类别的分支节点。然而,这些类别并不是独占(例如,在决策树)而是互相兼容的,同时将非人脸作为它们集体负类。以这种方式,对WFS树不仅利用人脸不同视角之间的相似性来识别非人脸,而且还保留其多样性以进一步分离。再以图5根分支节点为例,表2对通路选择方面的不同方法进行比较。通过决策树[10]做出的姿态估计相当于一个只有一个非零分量三维决定性矢量,而金字塔结构[9]以及标量输出[23]的树结构,只能给一个要么全零要么全一分量的决定性矢量。而对于WFS树,它拥有所有这些方法中最多样化的选择。

总之,在决定性向量和非排他的通路选择机制的帮助下,WFS树状结构的检测器能够为不明输入模式做出适中的决定:既不像决策树一样过于

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151436],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。