英语原文共 22 页,剩余内容已隐藏,支付完成后下载完整资料
一项关于2D和3D的人脸识别调查
摘要
最近的恐怖事件导致政府机构投入大量资源改进安保系统,这些事件危险地暴露了当今安全机制的缺陷和弱点。基于徽章或密码的身份验证过程太容易破解。生物识别技术是一种有效的替代方案,但它们也有弊端。例如,虹膜扫描非常可靠,但太具侵入性;指纹被社会接受,但不适用于非认同的人。另一方面,即使在受控条件下操作,人脸识别代表了社会可接受和可靠之间的良好折衷。在过去的十年中,已经提出了许多基于线性/非线性方法,神经网络,小波等的算法。尽管如此,人脸识别供应商测试2002显示,大多数这些方法在室外条件下遇到问题。与现有技术的生物测定学相比,这降低了其可靠性。本文提供了一个2D图像和3D模型算法的最新人脸识别研究趋势的“ex cursus”。为了简化不同方法之间的比较,提供了包含不同参数集合(如输入大小,识别率,解决问题数量)的表格。本文最后提出了可能的未来方向。
1.Face,最具吸引力的生物识别技术
许多最近发生的事件,例如恐怖袭击,都暴露了最先进的安全系统的严重弱点。现在各个政府机构都更愿意改进基于身体或行为特征的安全数据系统,通常称为生物识别(Perronnin and Dugelay,2003)。一般而言,生物识别系统处理原始数据以便提取更容易处理和存储的模板,但是携带大部分所需的信息。它是一项非常具有吸引力的技术,因为它可以集成到任何需要安全或访问控制的应用程序中,有效地消除与基于某人拥有或知道的不太先进的技术相关的风险,而不是真正的人。
也许最常见的生物识别技术是指纹和虹膜,但去年研究的许多其他人体特征:手指/手掌几何形状,声音,图案,脸部。图1显示了从商业角度来看最近几年人口最多的生物识别技术的发展。但是,生物识别技术有缺点。虹膜识别非常准确,但实施起来非常昂贵,并且不被人们所接受。指纹是可靠和非侵入性的,但不适用于非协作个体。相反,人脸识别似乎是可靠性和社会接受度之间的良好折衷,并且很好地平衡了安全性和隐私。任何基于人脸识别技术的识别系统都会对公民权利构成威胁(Johnson,2004);首先是因为在调查误报时会影响无创人的隐私。其次,面部模板数据可能会被盗用,无法替换(尽管任何丢失文档的人都可以轻松替换)。尽管如此,仍有大量的商业,安全和法医应用需要使用人脸识别技术。脸部识别在不受约束的采集条件下提供较低的安全级别,但具有能够在没有未知访问者的大型汇合处工作的巨大优势。
人脸识别系统分为两类:验证和识别。脸部验证是1:1匹配,将人脸图像与模板脸部图像进行比较,该模板脸部图像的身份被声明。相反,面部识别是1:N问题,它将查询人脸图像与人脸数据库中的所有图像模板进行比较,以确定查询人脸的身份。最后,第三种情况-观察列表已在人脸识别供应商测试(FRVT2002)中提出(Phillips等人,2002)。测试人员可能或可能不在系统数据库中。将查询人脸图像与数据库中的所有人脸图像进行比较,计算每个人的分数。所有这些分数都进行了数字排序,以便最高分是第一个分数,如果相似性分数高于给定阈值,则会发出警报。
在过去的十年中,人脸识别取得了重大进展,许多系统的识别率都超过了90%。然而,真实世界的情景仍然是一个挑战,因为人脸获取过程可能会经历各种各样的变化。
有五个关键因素可以显着影响系统的人脸识别性能:
bull;由于皮肤反射特性和内部相机控制引起的照明变化。几种二维方法仅在适度光照变化下才能识别任务,而在照度和姿态变化发生时,性能明显下降。
bull;改变认证过程的影响,因为它们引入了投影变形和自闭现象。即使处理高达32°头部旋转的方法存在,考虑到安全摄像头在定位时可以创建超出此范围的视角,它们也不能解决问题。相反,除了尖叫之类的极端表情之外,这些算法对于面部表情来说相对稳健。
bull;另一个重要因素是时间延迟,因为人脸会随着时间的推移而长时间以非线性方式变化。总的来说,这个问题很难解决,而且对于年龄变化没有做太多的工作。
bull;最后,如文献中记录的,遮挡会大大影响脸部识别的效果,特别是如果它们位于脸部的上侧
为了评估所提出的方法在处理这些变化中的一种或组合时的效果如何,已经构建了多个人脸图像数据库。所解决的问题的数量和类型(连同其他参数,如测试数据库的数量,画廊和探针集的大小)很好地表明了人脸识别方法的鲁棒性。这也激励了许多研究人员生成多个面部数据库,这些面部数据库在其图像上提供尽可能多的变化。 FERET(Phillips等人,2000),CMU-PIE(Sim等人,2003),AR Faces(Martinez,2002)代表最流行的2D人脸图像数据库集合之一。每个数据库都旨在解决涵盖各种场景的特定挑战。例如,如果需要大的加粗和探针组,FERET就代表了一个很好的测试框架,而当姿态和照明变化是主要问题时,CMU更多地被指示出来。最后,AR Faces是唯一提供自然遮挡脸部图像的数据库。
相反,很少有三维人脸模型数据库,它们包含的数据量非常少。表1和表2列出了最流行的二维人脸图像和三维人脸模型数据库,其主要特征如下:姓名,彩色/灰度图像,每人的人数和图像数量,可用失真(照度(i)(p),表达式(e),遮挡(o),时间延迟(t),室内/室外(i / o)),可用性(免费/可购买)和网页主页。
与建立非常大的人脸数据库的重要功能相反,没有独特的标准协议来评估性能。人脸识别算法的性能通常具有正确的识别率,FAR(假接受率)或FRR(假拒绝率)在闭环假设下的特征。 然而,Sherrah(2004)最近强调了主要最小化误报率的重要性,因为在设计分类器时将其减到最小是更加困难的标准。FERET策略(Phillips等,2000)和FRVT(面部识别供应商测试)(Phillips等,2002)也为测试协议的标准化做出了巨大贡献。
事实上,没有用于测试现有算法的通用基准数据库,而FERET是朝这个方向发展的极好尝试。 相反,FRVT的主要目标是商业可用面部识别系统在表情,照明,姿态和时间延迟方面的能力评估。 在FRVT(2002)的最新版本中,FaceIt在大多数实验中胜过了其他供应商,但性能尚未与其他更广泛使用的生物特征(指纹)相媲美。
3D捕捉过程变得更加便宜和快速,出于这个原因,最近的作品试图直接在3D人脸模型上解决这个问题。 3D捕捉技术的不断进步也影响了识别算法的类型。 实际上,第一种算法直接应用于点云(经过适当的三角化)之后,而最近的算法直接在网格上工作,在某些情况下考虑3D形状和纹理提供的信息。 3D_RMA是由点云图像表示的3D人脸模型数据库的示例。
很长一段时间它是唯一公开可用的数据库,即使它的质量很低。相反,3D网格现在可以使用较新的技术,但在大多数情况下,它们只是专有的数据库。本文的其余部分组织如下:第2节描述最近的2D人脸识别研究趋势,同时强调所取得的成果;第3部分分析了目前阻止商业应用中更广泛采用人脸生物识别技术的原因。在其最后一段中,它还提供了一种更一般的方式来评估现有人脸识别算法的性能。
第四部分分介绍了基于3D的人脸识别模型的开篇讨论,接下来的小节将讨论目前可用的采集程序和目前文献中最重要的方法。最后,第5部分结束本文,考虑了现有技术水平和面部生物特征可能的未来趋势,提出了几种多模式作为可靠性与社会认可度之间的良好折衷。
2.自动识别脸部:新旧
2.1线性/非线性投影方法
自动人脸识别可以被看作是一种模式识别问题,由于其非线性问题而很难解决。特别是,我们可以将其视为一个模板匹配问题,其中必须在高维空间进行识别。由于空间维数越高,我们需要找到匹配的计算就越多,因此使用维数降低技术将问题投影到低维空间。的确,Eigenfaces(Kirby和Sirovich,1990)可以被认为是这种意义上的第一种方法之一。一个N·N图像I在一个N2向量中被线性化,所以它代表了一个N2维空间中的一个点。然而,比较并不是在这个空间中执行的,而是通过降维技术发现低维空间(图2)。Kirby和Sirovich(1990)采用了PCA(主成分分析)。因此,在线性化之后,在所有图像中计算平均矢量,并从所有矢量中减去平均矢量。
对原始的面孔。然后计算协方差矩阵,以便提取对应于最大特征值的有限数量的特征向量。这些少数特征向量,也称为特征脸,代表了低维空间中的基础。当需要测试新图像时,根据这种距离测量(通常为欧几里德距离),计算相应的特征脸扩展并将其与整个数据库进行比较。由于PCA仅用于训练系统,因此在测试新脸部图像时,此方法非常快速。 PCA已经在人脸识别应用中得到了广泛的应用,但其他许多线性投影方法也被研究过。
LDA(线性判别分析)(Lu et al。,2003; Martinez and Kak,2001)已被提议作为PCA的更好选择。它明确地提供了类别之间的区分,而PCA完整地处理输入数据,而没有关注底层结构。事实上,LDA的主要目标在于寻找能够在课堂之间提供最佳区分的载体基础,试图最大限度地发挥课堂上的差异,最大限度地减少课堂内的差异。级间和级间差异由相应的散布矩阵Sb和Sw表示,而比率det Sb / det Sw必须最大化。即使LDA通常被认为表现优于PCA,也必须进行重要的评估。实际上,LDA只有在有广泛的训练集时才能提供更好的分类性能,并且Martinez和Kak(2001)讨论的一些结果证实了本文。除了最近的研究也加强了这个论点,明确地解决了这个被称为SSS(小样本量)问题的问题。在一些方法中,如Fisherfaces(Belhumeur et al。,1997),PCA被认为是降低输入空间维度的初步步骤,然后将LDA应用到结果空间中,以便执行真实的分类。然而,近年来的研究表明(Chen et al。,2000; Yu and Yang,2001),以这种方式结合PCA和LDA,歧视信息和冗余信息被忽略。因此,在某些情况下,LDA直接应用于输入空间,如(Chen et al。,2000; Yu and Yang,2001)。 Lu等人(2003)提出了D-LDA(Direct LDA)和F-LDA(Fractional LDA)之间的混合体,LDA的一个变体,其中使用加权函数来避免太接近的输出类别导致对输入的错误分类。
DCV(判别共同矢量)(Cevikalp等,2005)代表了这种方法的进一步发展。 DCV的主要思想在于收集同类中元素之间的相似性,减少它们之间的差异。通过这种方式,每个类可以用从散布矩阵中计算出来的公共向量来表示。当一个未知的人脸必须被测试时,相应的特征向量被计算并且与最近的公共向量的类相关联。 PCA,LDA和Fisherfaces的主要缺点是它们的线性。特别是,PCA仅利用协方差矩阵提取输入数据的低维表示,因此不会使用一阶和二阶以上的统计量。在(Bartlett Marian等,2002)中,一阶统计量和二阶统计量仅保留关于图像幅度谱的信息,丢弃相位谱,而一些实验表明人类识别物体的能力主要是dri - 通过相位谱。这是(Bartlett Marian et al。,2002)将ICA引入作为面部识别问题更强大的分类工具的主要原因。 ICA可以被认为是PCA的推广,但提供了三个主要优势:(1)它允许在n维空间中更好地表征数据; (2)ICA发现的矢量不一定是正交的,因此它们也减少了重建误差; (3)它们不仅捕获协方差矩阵,还考虑高阶统计量。
2.2神经网络
人脸识别问题的另一个非线性解决方案是由神经网络给出的,主要用于许多其他模式识别问题,并且适用于人员认证任务。神经分类器优于线性分类器的优点是它们可以减少邻域类之间的错误分类。基本思想是为图像中的每个像素考虑一个带有神经元的网络。尽管如此,由于模式维数(一幅图像的维数约为112·92像素),神经网络并不是直接用输入图像训练的,但是它们之前是应用了这种降维技术。
Cottrell和Fleming(1990)给出了第一个解决这个问题的方案,该方案引入了第二个神经网络,它在自动关联模式下工作(图3)。首先,由矢量x表示的人脸图像通过第一个网络(自动关联)由一个具有较小维数的新矢量h近似,然后h最终用作分类网络的输入。 Cottrell和Fleming也表明,即使在最佳情况下,这种神经网络的表现也不如特征脸。其他类型的神经网络也已经在人脸识别中进行了测试,以便利用它们的特定属性。例如,自组织映射(SOM)对于图像样本中的微小变化是不变的,而卷积网络提供关于旋转,平移和缩放的部分不变性。一般来说,网络的结构强烈依赖于其应用领域,因此不同的上下文会导致不同的网络。在最近的一项工作中,Lin等人(1997)提出了基于概率决策的神经网络,他们模拟了三种不同的应用(人脸检测器,眼睛定位器和人脸识别器)。这些网络的灵活性是由于它们具有非线性基本功能的分层结构和竞争性信用分配方案,其显示了识别多达200人的能力。
最后,Meng等人(2002)引入了一种混合方法,其中通过PCA提取最多的特征并用作RBF神经网络的输入。由于RBF具有紧凑的拓扑结构并且学习速度快,所以RBF对于面部识别问题表现良好。在他们的工作中,作者还面临着过度训练的问题:网络输入的维度与训练集的大小相当;过度训练:输入的高维度导致收敛缓慢,样本量小:样本容量必须呈指数增长,以便在维数增加时对多变量密度进行实际估计;单一问题:如果训练模式的数量少于特征的数量,则协方差矩阵是奇异的。一般而言,当类数增加时,基于神经网络的方法会遇到问题。此外,它们不适合单个模型图像识别任务,因为为了训练系统以“最佳”的参数设置,每个人都需要多个模型图像。
2.3.Gabor滤波器和小波
由于Gabor滤波器具有捕获重要视觉特征(如空间定位,空间频率和方向选择性)的能力,因此Gabor滤波器在图像处理和图像编码中都是一个强大的工具。在大多数情况下,Gabor滤波器然后用于从脸部图像中提取主要特征。事实上,在(Lades et al。,1993)中,它们已经应用于面部
全文共24021字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14464],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。