英语原文共 28 页,剩余内容已隐藏,支付完成后下载完整资料
Android人脸识别系统的设计与实现
人脸识别技术综述
Rabia Jafri* and Hamid R. Arabnia*
摘要:人脸识别在图像分析和计算机视觉领域是一个具有挑战性的问题,因为它在各个领域有很多应用,所以在过去几年中受到了很大的关注。基于人脸数据采集方法,人脸识别技术可以大致分为三类:对强度图像进行操作的方法;那些处理视频序列的方法;以及那些需要其他感官数据信息的方法,例如3D信息或红外图像。在本文中,提供了这些类别中的一些众所周知的方法的概述,并检查了其中提及的方案的一些优点和缺点。此外,还讨论了使用人脸识别的动机、该技术的应用以及困扰当前系统的一些困难。本文还提到了为此目的而开发的一些最新算法,并尝试提供有关人脸识别技术的最新技术的概念。
关键字:人脸识别、人身份识别、生物识别
问题定义
人脸识别问题可以归结为以下几个方面:给定输入人脸图像和已知人脸图像数据库,如何验证或确定输入图像中人的身份?
为什么要用脸来识别呢?
基于生物特征识别的技术已成为最近几年来用于识别个人身份的最有前途的选项,因为基于密码,PIN,智能卡,塑料卡,令牌,钥匙等对人进行身份验证并授予他们访问物理和虚拟域的权限,这些方法检查个体的生理和/或行为特征以便确定和/或确定他的身份。密码和个人识别码难以记忆,可能被盗或猜出;卡,代币,钥匙等可能错位,遗忘,盗窃或重复;磁卡可能会损坏并且无法读取。但是,个人的生物特征不可能错放、遗忘、被盗或伪造。
基于生物特征的技术包括基于生理特征的识别(例如面部、指纹、手指几何、手几何、手静脉、手掌、虹膜、视网膜、耳朵和声音)和行为特征(如步态、签名和击键动力学)[ 1 ].人脸识别似乎比其他生物识别方法提供了几个优点,其中几个概述如下:几乎所有这些技术都需要用户的一些自愿行动,即,用户需要将他的手放在用于指纹识别或手部的手部休息处几何检测,并且必须站在摄像机前方的固定位置以进行虹膜或视网膜识别。然而,面部识别可被动地完成,而用户方面没有任何明确的动作或参与,因为面部图像可由相机从远处获取,这对安全和监视目的特别有利。此外,一般来说,对于其他生物测量学来说,数据采集还存在着问题:如果表皮组织以某种方式受损(如擦伤或破裂),依靠手和手指的技术将变得毫无用处。虹膜和视网膜识别需要昂贵的设备,对任何身体运动都过于敏感。声音识别容易受到公共场所的背景噪音和电话线或磁带录音的听觉波动的影响。签名可以修改或伪造。然而,用几个廉价的固定相机可以容易地获得面部图像。良好的人脸识别算法和适当的图像预处理可以补偿噪声和方向、尺度和光照的细微变化。最后,需要多个人使用相同设备捕捉其生物学特性的技术可能会使用户接触其他用户的细菌和杂质。然而,面部识别完全是非侵入性的,不存在任何这样的健康风险。
应用
人脸识别用于两个主要任务:
- 验证(一对一匹配):当呈现未知个人的脸部图像以及身份声明时,确定该个人是否是他/她所声称的人。
- 识别(一对多匹配):给定未知个体的图像,通过比较(可能在编码之后)该图像与已知个体的(可能编码的)图像的数据库来确定该个人的身份。
有许多应用领域可以将人脸识别用于这两个目的,其中几个概述如下。
bull;安全(对建筑物,机场/海港,ATM机和边界检查站的访问控制[2,3];计算机/网络安全[4];多媒体工作站的电子邮件认证)。
bull;监视(可以监视大量闭路电视以寻找已知的罪犯,毒品犯罪分子等等,并可以通知当局,例如,此程序曾用于佛罗里达州坦帕市的2001年超级碗比赛[ 5];另一种情况是,根据美国有线电视新闻网的报道,最近在亚利桑那州凤凰城的皇家棕榈中学安装了两台与性犯罪者,失踪儿童和被指控绑架者有关的州和国家数据库相关的摄像机[6])。
bull;一般身份核实(选举登记,银行业务,电子商务,识别新生儿,国民身份证,护照,驾驶执照,员工证)。
bull;刑事司法系统(马克枪/预订系统,事后分析,法医学)。
bull;图像数据库调查(搜索持照驾驶员,受益人,失踪儿童,移民和警察预订的图像数据库)。
bull;“智能卡”应用程序(代替维护面部图像数据库,可将面部打印存储在智能卡,条形码或磁条中,通过匹配实时图像和存储的模板进行验证) [7]。
bull;具有自适应人机界面的多媒体环境(无处不在或环境系统的一部分,儿童保育或老人中心的行为监控,识别客户并评估他的需求)[8,9]。
bull;视频索引(在视频中标记人脸)[10,11]。
bull;证人脸部重建[12]。
除了这些应用之外,当前人脸识别技术中的基础技术也已经被修改并用于诸如性别分类[13-15],表情识别[16,17]和面部特征识别和跟踪[18]等相关应用。; 其中的每一个都有其在各个领域的实用性:例如,表达识别可以用于重症监护的医学领域[19],而面部特征识别和检测可以用于追踪车辆驾驶员的眼睛,从而监控他的疲劳 [20],以及压力检测[21]。 为了提高这些方法的识别性能,人脸识别还与其他生物识别技术(如语音,虹膜,指纹,耳朵和步态识别)结合使用[8,22-34]。
一般困难
人脸识别是物体识别的一个特殊而困难的例子。这个问题的困难源于这样一个事实,即它们最常见的形式(即正视图)面貌大致相似,并且它们之间的差异相当微妙。因此,正面人脸图像在图像空间中形成一个非常密集的群集,这使得传统模式识别技术几乎不可能以高度成功的方式准确区分它们[35]。
此外,人脸不是一个独特的、僵硬的物体。事实上,有许多因素导致面部的外观变化。面部表情变异的来源可分为两类:内在因素和外在因素[ 36 ]。(a)内在因素纯粹是由于脸部的物理性质,而且与观察者无关。这些因素可以进一步分为两类:内省和人际关系[ 37 ]。内在因素是负责改变一个人的容貌,一些例子是年龄、面部表情和面部用品(面部的头发,眼镜,化妆品等)。然而,人际因素是造成不同人面部外貌差异的原因,例如种族和性别。B)外在因素通过光与脸部和观察者的相互作用而导致面部的外观发生改变。这些因素包括照明、姿态、刻度和成像参数(如分辨率、聚焦、成像、噪声等)。
在过去几年中进行的最先进的识别技术评估,如FERET评估[7,38],FRVT 2000 [39],FRVT 2002 [40]和FAT 2004 [41]等已经证实 年龄变化,光照变化和姿态变化是困扰当前人脸识别系统的三个主要问题[42]。
虽然目前大多数人脸识别系统工作的很好的约束条件下(即方案中至少有一些有助于人脸图像之间的变化的因素进行控制),大多数这些系统的性能会急剧下降,当他们投入工作的条件下,这些因素都是调节[ 43 ]。
人脸识别技术
获取人脸图像的方法取决于底层应用程序。例如,监视应用可以通过利用摄像机捕获面部图像来得到最好的服务,而图像数据库调查可能需要由标准相机拍摄的静态强度图像。一些其他应用程序(例如访问顶级安全域)甚至可能需要通过要求用户站在3D扫描仪或红外传感器的前方,放弃面部识别的非侵入性质量。因此,根据人脸数据采集方法,人脸识别技术大致可分为三类:对强度图像进行操作的方法,处理视频序列的方法,以及需要其他感官数据(如3D信息或红外线)的方法图像。下面的讨论对每种类别的方法进行了一些说明,并试图概括一般中提及的方案的一些优点和缺点(详细调查请参见[44,45])。
5.1来自强度图像的人脸识别
强度图像的人脸识别方法分为两大类:基于特征的和整体的[46-48]。 下面给出了这些类别中一些众所周知的方法的概述。
5.1.1基于特征
基于特征的方法首先对输入图像进行处理,识别和提取(或测量)眼睛、嘴巴、鼻子等明显的面部特征以及其他基准标记,然后计算这些面部点之间的几何关系,从而将输入的面部图像还原为几何特征向量,然后采用标准统计模式识别技术来匹配这些测量的人脸。
早期对自动人脸识别进行的工作主要基于这些技术。最早的这种尝试之一是Kanade [49],他采用简单的图像处理方法来提取16个面部参数的矢量,这些面部参数是距离,面积和角度的比率(以补偿图片的大小不同),以及 使用简单的欧几里德距离度量进行匹配,以便在每个人使用2张图像(一个用于参考,一个用于测试)的20个不同人员的数据库上实现75%的峰值性能。
Brunelli和Poggio [46]基于Kanade的方法,从47人的数据库(每人4张图像)计算出35个几何特征向量(图1),并报告了90%的识别率。但是,他们还使用简单的模板匹配方法为同一数据库报告了100%的识别准确性。
更复杂的特征提取技术涉及可变形模板([50,51,52]),Hough变换方法[53],Reisfeld对称算子[54]以及Graf滤波和形态学运算[55]。然而,所有这些技术在很大程度上都依赖于启发式算法,比如用几何约束来限制搜索子空间[56])。此外,必须给模型一定的容差,因为它们永远不能完全适合图像中的结构。然而,使用大容差值往往会破坏基于模型的最终最佳拟合参数识别个体所需的精度,并使这些技术对识别所需的微小变化不敏感[37]。最近,Cox等人[57]使用从35个面部特征导出的30维特征向量(图2)在685个图像(每个个体的单个图像)的数据库上报告了95%的识别性能。但是,人脸特征是手动提取的,因此如果采用自动化的特征提取方法,那么假设识别性能会低得多,这是合理的。总的来说,目前用于自动特征提取的算法不能提供高度的准确性并且需要相当大的计算能力[58]。
图1。几何特征(白色)在人脸识别实验中的应用[ 46 ]。(copy;IEEE 1993)
图2。35手动识别面部特征[ 57 ]。(copy;IEEE 1996)
另一个众所周知的基于特征的方法是Wiskott等人提出的弹性束图匹配方法[59]。这种技术基于动态链接结构[60]。产生单个脸部的图形如下:选择脸部上的一组基准点,每个基准点都是完全连通图的一个节点,并且标记有应用于基准点周围的窗口的Gabor滤波器的响应。每个拱门都标有相应基准点之间的距离。一组有代表性的图形被组合成一个类似堆栈的结构,称为“面映射”。当系统具有人脸波束图时,可以通过弹性梁图自动生成新的人脸图像。通过将图像映射与所有已知人脸图像进行比较,选择具有最高相似度的图像,识别出新的人脸图像。使用这种架构,使用250人的图库,识别率可以达到第一级的98%和前10级的99%。该系统已得到增强,使其能够处理不同的位置(图3)[61],但在同一方向的面上的识别性能保持不变。尽管这种方法在最近的FERET评估中是最好的方法之一[62,63],但它确实遭受了严重的缺点,即在弹性图匹配变得充分可靠之前需要手动完成前70个面的图放置[64]。 Campadelli和Lanzarotti [65]最近使用这种技术进行了实验,他们已经消除了基于[50]中提出的可变形模板使用参数化模型手动进行图放置的需要,以自动定位基准点。他们声称已经获得了与[59]中使用的弹性束图相同的性能。这种方法最近的其他变化是用图匹配策略[66]和HOGs(面向梯度的直方图[67])代替Gabor特征。
图3。用于人脸识别的网格[ 61 ]。(copy;IEEE 1999)
由于在这种情况下,特征提取变成了一个稍微简单的一维问题[57,71],因此人们还致力于从他们的简档中识别面孔[68-72]。考夫曼和育种[70]报告使用面部轮廓识别率为90%;然而,他们只使用了一个只有10个人的数据库。 Harmon等人[68]在112个人的数据库中获得96%的识别精度,使用17维特征向量来描述脸部轮廓并利用欧几里德距离度量来进行匹配。最近,Liposcak和Loncaric [71]在30个人的数据库中报告了90%的准确率,使用子空间滤波来推导21维特征向量来描述面部轮廓,并采用欧几里得距离度量来匹配它们(图4) 。
图4。a)人脸识别感兴趣的十二个基准点;B)特征向量有21个分量;十距离d1-d10(标准化/(D4和D5))和十一个剖面弧A1 A11(标准化/(A5和A6))[ 71 ]。(Z liposcak S.郎卡历礼貌)
5.1.1.1的优点和缺点
基于特征的技术提供的主要优势在于,由于特征点的提取先于为了将图像与已知个体匹配而进行的分析,所以这种方法对于输入图像中的位置变化相对稳健[37]。原则上,基于特征的方案可以在尺寸,方向和/或照明方面不变[57]。这些方案的其他好处包括人脸图像表示的紧凑性和高速匹配[73]。这些方法的主要缺点是自动特征检测的困难(如上所述),以及任何这些技术的实施者必须对哪些特征非常重要进行任意决定[74]。毕竟,如果特征集缺乏辨别能力,那么没有任何后续处理可以
全文共31402字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[10314],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。