英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
1人脸识别背景
人脸识别已经研究了许多年,在实际中有一定的应用如安全系统,犯罪分子识别,援助与讲话识别系统等。人脸识别对人类来说非常重要,而人脸也在人类社交中扮演重要的角色,用于传达情感和感觉。人类是非常善于在一系列不同的物理条件内轻松地进行人脸识别。然而,开发一个模拟人类能力的人工系统已被证明是一个非常困难和计算复杂的任务。到现在,已经存在众多的研究,探索各种在人脸识别的过程概念和问题。也有多努力去设计一些采用人工神经网络和其他各种如等密度模板匹配人脸面部特征(鼻子,眼睛,嘴巴)的大小相对距离的人脸识别系统。福斯与哈肯开发的另外一种这样的系统,解决了人脸图像模式翻译和部分遮挡问题。将模型作为一个动力系统,应用协同学原理,他们能够创造一个联想记忆存储模式。然而,大多数提出方案的性能,一般都是基于敏感的图像2维坐标变换。
面部表情
神经生理学的研究似乎表明,面部表情分析在完成人脸识别中是并行存在的。然而,一些在识别熟悉面孔上有困的面孔失认症患者,似乎仍然能认识到情感表达。相反,患有“有机脑综合征”的患者对于表情辨识表现不佳,但人脸部的识别很好。一个人的面部表情取决于她的心理状态,虽然表情的分析是一个人类在其中几乎没有投入努力的工作,但是,它是模拟人类的情绪并将它们与物理特征联系起来的复杂问题。表情指通过眼部肌肉、颜面肌肉和口部肌肉的变化来表现各种情绪状态。在识别过程中有几个变量,例如,人脸的熟悉度,对于不同表情的一般经验,对于脸的关注度和非视觉线索。而鲜为人知的是,大脑如何完成这项任务,它通常被认为是一个早期的感知过程,并独立于那些参与特征检测的过程。
在一个实际中,真实世界里面,面部识别的方案是极不可能的。因为受试者要始终具有相同的面部表情,因此,面带有部表情(开心、悲伤、紧张)的图片被列入了测试套件,用以模拟更现实的条件。
2 各种算法
现在存在很多种基于不同技术的不变二维模式的人脸识别算法,例如基于傅里叶描述子的算法、基于圆谐展开的算法、自回归模型、采用全局图像信息的不变矩算法。在这一部分,介绍了一些方法。
2.1 傅里叶描述子
傅里叶描述子的基本思想是:在X-Y平面考虑一个从任意一个点(Xo,Yo)开始的N点数字边界,穿越边界时,将会遇到坐标对(X1,Y1),(X2,Y2),(X3,Y3)hellip;,(Xn-1,Yn-l),记做S(k)。每个坐标对可以被视为一个复杂的数:
s(k) =x(k) jy(k) for k=O,1,2,...,N-I
从而,将一个二维的实体转换为了一维的实体。
s(k)的离散傅里叶变换(DFT)为:
这个复杂系数被称为边界的傅立叶描述子。a(u)恢复成s(k)称为:反向傅里叶变换。而系数的波形的信息为:这里的高频分量决定了波形的细节,低率分量决定全局形状,因此,他们可以作为基础区分不同的边界形状。
2.2 傅立叶变换
傅立叶变换对的平移性质:
它可以清楚地看到,在空间域的图像的平移对应着频率域中的指数项的乘法。这一空间转变不影响傅立叶变换的幅度,因为:
给定的笛卡尔坐标可以表示为极坐标形式:
空间函数在一个空间平面上的平移成为了频率平面上的旋转:
缩放的情况下,如下图所示,a代表缩放因子:
换言之,傅立叶变换与空间的变换比例成反比响应。
傅里叶变换揭示了时间域与频率域的关系,明若在时域平移时间,则其频谱函数的振幅并不改变,但其相位却将改变。福斯和哈肯采用傅里叶变换实现了尺度、旋转和平移不变图像识别,但是面部遮挡和面部表情变化的辨识并没有解决。在实践中,这些种的变化肯定会改变系统的光谱响应。
2.3 力矩
在许多应用里面,力矩和力矩的功能已被用作模式特征;这些功能持有的图像的全局信息。几何力矩被定义如下:
在是(p q)的连续图像函数的阶矩。一些模式识别算法已经是基于2维矩不变的了,特别是泽尼克和伪泽尼克的力矩,他们拥有旋转不变性,正交性和优异的信噪比。一个连续的像函数的重复m的n阶泽尼克力矩,在单位圆外消失:
表示的泽尼克多项式复数共轭, 为n阶m和重复。
对于数字图像的积分代替求和得到:
当
要计算泽尼克矩的图像,图像的中心被视为原点和像素坐标映射到单位圆内();此范围以外的像素不使用。伪泽尼克矩的不同在于他们的径向多项式。
2.4 模板匹配
在这里,问题是在一组已知图像内找到与未知图像最匹配的那个图像。一种方法是计算未知图像与每一个已知的图像的相关性。最接近的匹配是那个产生图像相关函数最大的图像。把不同传感器或同一传感器在不同时间、不同成像条件下对同一景物获取的两幅或多幅图像在空间上对准,或根据已知模式到另一幅图中寻找相应模式的处理方法就叫做模板匹配。简单而言,模板就是一幅已知的小图像。模板匹配就是在一幅大图像中搜寻目标,已知该图中有要找的目标,且该目标同模板有相同的尺寸、方向和图像,通过一定的算法可以在图中找到目标,确定其坐标位置。建筑规模和旋转不变性证明是困难的。通过使用间缩放,可以实现标准化的大小它本身包含了大量的计算时间,用于旋转的标准化是更困难。利用空间尺度,可以实现标准化的大小计算,它本身就包含了大量的计算时间,而标准化的旋转计算依然是很困难的。
另一种方法是构建一个最小距离分类器,每个已知图像被转化成它的原型向量。未知的模式向量的类成员则被分配给这些它最接近的原型。欧氏距离可以用来确定未知向量与原型之间的亲密关系。在实际应用中,最小距离分类器当类之间传播或随机性独立且相差较大时,工作效果良好。然而,在实际中很少发生小范围的类别同时有着大范围的差距的情况。
2.5 基准标记
一个可以运用整体方法或基于特征的方法去匹配的方式。最常见的特征类型是来自强度的特征从人脸轮廓提取的图像和特征。在图像轮廓,特征值使用一组特征点(基准点)得到的轮廓。这里有两种最常见的特征类型:来自强度图像的特征和来自人脸轮廓的特征。在图像的轮廓中,特征值来自于在轮廓中使用了一系列特征点(基准点)。最早的人脸识别工作是基于人脸轮廓的。五个为一组的基准标记是这样被认定的:眉毛和鼻子之间的缺口,鼻子的顶端,鼻子和上嘴唇之间的缺口,嘴唇的分离和下巴的尖端。而一些功能来自于这些点,并用来比较的脸。哈蒙还设计了一个类似的方法,但使用九基准标记代替五基准点:下巴尖、鼻子、额头、鼻底、桥梁、喉咙、嘴巴、上唇、上唇、下唇口。特征之间的距离、他们之间的角度和基准点之间形成的三角型面积,都是他们中的一部分。这些特征将被进一步的处理,使的他们对于尺度规模和旋转性来说都不变。而相似程度是由归一化欧氏距离从两个组特征中测量得到的。轮廓数据通常都是在得到了适当控制的条件下得到的。同时特征中有些导出了少量人工的部分,比如鼻尖、前额和下巴之间形成的三角型面具,是不可能用在人类视觉系统中的。
3 神经网络方法
3.1 模式识别
人工神经网络,是一种基于生理学上的神经网络理论抽象化的系统模型。它是由大量的基本单元———神经元通过极其丰富的相互联结而构成的非线性动力学系统。在不变模式识别中,利用高阶网络对其的研究已经在被一些研究员探索了,同时他们被应用于简单、二维二进制模式的分类。通过调整它们相应的权重,高阶网可以设计成不变的二维坐标变换的图像。
人工神经网络就是模拟人思维的第二种方式。其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。这样一个网络的二阶模式对平移的转换和扭曲的程度来说是不敏感的。而一个这样的三阶模式可以用于执行平移的转换、压缩伸展的转换和大小不变的旋转转换。这个模式在其他神经网络的范例上,例如反向传播的训练时间显著地减少。
对于一个版本的Rumelhart的经典TIC问题,spirkovska和Reid方法均能达到100%的识别率。在其中,有两个字母,每个字母由5个方块(块)组成,同时,目标是区分它们之间的独立的压缩伸展变换,旋转或平移变换。
同样的成功是实现二进制,只有边缘的飞机图像;他们的测试包括了对象的转换,他们将对象按照原来的臂力缩小到原来的38%大小,并进行任意角度的转换。基于这些方法得到成功的结果,相对于二进制的模式(例如字母、飞机的轮廓),我受到了很多启发去解决关于灰度图像的许多实际问题和相对于图像边缘提取人脸识别而言更复杂的现实问题。
在模式识别中,输入图像必须被识别,不管它的位置,大小和角度方向。为了实现这一点,神经网络需要学习的输入像素之间的关系。模式识别需要将模式空间进行非线性细分成为子集,代表要被识别的子集。单层神经网络只能进行线性判别。然而,多层级网络和高阶神经网络(HONNs)都可以实现这一点。在多层网的情况下训练往往需要很长的时间,但高阶网络可以只使用一个单一的层,一个简单的学习规则可以在这里被应用起来,这个行为将会进行有效的快速收敛。学习率影响着网络收敛的速度,以及网络能否收敛。学习率设置偏小可以保证网络收敛,但是收敛较慢。相反,学习率设置偏大则有可能使网络训练不收敛,影响识别效果。图2.2、2.1和2.3分别显示了简单的第一、二、三阶网络的例子。在简单的第二、三阶网络中,输入层和输出层之间的阴影部分代表的是结果的单位,在这里,输入信号被有效的计算并传递。控制一阶和二阶网络行为的方程如下:
第一阶:
第二阶:
其中是一个非线性阈值函数,和是网络的权重,和Xj和XK代表神经元的输出。
神经网络结构采用单层,三阶前馈网络与一个单输出神经元。一个完全连接的三级网络用来表示一个小的16像素的图像。它输入层的每个神经元代表图像中的像素,每3个像素可能的构成的组合都将得到计算并分配一个权重()。一个普通的高阶神经网络的行为可以用一下的方程描述:
其中,f是阈值函数,X是神经元的输出,W是网络的连接强度(或“权重”)。带有一个单一的输出神经元的严格三阶网络:
前馈网络也称前向网络。这种网络只在训练过程会有反馈信号,而在分类过程中数据只能向前传送,直到到达输出层,层间没有向后的反馈信号,因此被称为前馈网络。
3.2 高阶与一阶结构
在目标识别领域中,反向传播算法在一阶神经网络中是最为流行的训练方法。训练使用输入向量的顺序和调整网络的权重,使用梯度下降法学习规则,尽可能地减少了实际输出和所需输出(目标)之间的差异。为了能够进行平移、尺度和旋转不变的图像识别,网络需要一些非常大量的不相同的对象,保证它的隐层能够将输入向量和形成自己的内部表示的图像。这种大的训练集必须包含平移,旋转和缩放版本的原始图像的组。由于这种训练集的图像的广泛性,训练时间通常是很长的。
神经认知机(福岛1982)[fuku82]是一个在人类视觉皮层的线路设计并创建的强大的范例。神经网络通过自组织或学习训练而具有强有力的模式识别能力,这使得基于神经网络的模式识别系统与传统的模式识别系统相比,表现出明显的优点。它们通过其分层的神经元提取特征,采用的是就像在人类视网膜上的识别模式一样的2维模式。这里,它的神经元的层级结构是是以前的层次特征的组合。因此,在连续层的功能变得越来越复杂,越来越像人类视觉皮层的工作。训练从输入层到输出层,包括应用输入图像和调整突触强度。一旦经过训练,的神经认知机应能对其进行变形-(对轻微的defonnations例)、平移不变地识别。它也可以有轻微的角度方向的变化和轻微的尺寸大小变换时,进行模式的识别。因此三种类型的变换(平移、旋转、尺度)在这个算法具有很好的鲁棒性。
虽然神经认知机是一个相当准确的生物系统模型,但是它有一个缺点:线性对象的数量的增加会促使模型中细胞数量的增加,想要学会区分这些大量的成员,训练的时间将会变得非常非常长。
在一级网的算法的主要优点是,不变性变换可以内置到网络的权重中,而并不需要学会通过迭代更新权重。这使得训练的网络与一个单一的图像每一个对象相对应,大大减少了训练所需的时间。
3.3 缺点是高阶内存要求
在一个三阶高阶网络中,为了保证旋转、平移和尺度不变性的图像识别,三像素组合成的每个组合,在输入图像必须有一个相关的权重。因此,可能的元组数将随着输入字段的大小而增加。这里需要说明的是,一个图像ntimes;n像素大小,有可能拥有N2-choose-3个可能的三元网元组。而更大的问题是:对于2ntimes;2n的图像,将可能有4N2-choose-3个三重组合。举一个例子,一个16times;16的图像包含2.7万个三元网元组,而一个128times;128的图像则有7.3times;1011个三元网元组。原则上,原则上,可以设计一个包含任意数量输出神经元的三级网络(一个对应一个输入级),但是由于三元组含有大量的数据和实用的计算机系统施加的内存限制,每个神经网络在设计时只有一个单一的输出神经元,从而限制了输入类
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[153786],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。