英语原文共 26 页,剩余内容已隐藏,支付完成后下载完整资料
理想和嘈杂条件下使用支持向量机,PCA和LDA的人脸识别
- 介绍
在本章中,我们考虑基于人脸的生物识别。 生物识别技术经常用于识别人类的自动化系统中(Jain等人,2004),并且目前对生物识别领域的巨大兴趣(Jain等人,2008; Shoniregun&Crosier,2008; Ross等人,2006 )。
除了诸如指纹或DNA识别的众所周知的方法,脸部图像已经开启了新的可能性。 面部识别已经被许多公司投入到现实生活中。 它已经在图像组织软件(例如Google的Picasa:http://www.deondesigns.ca/blog/picasa-3-5-adds-face-recognition/),网络应用程序(例如网络相册http:// picasa.google.com/intl/en_us/features-nametags.html),甚至在商用紧凑型相机(例如Panasonic Lumix)中。 护照包含自2006年以来的面部生物识别数据(欧盟 - 护照规格,2006)。
在面部识别的领域中,类代表同一主体(人)的所有图像。 目标是实现自动机器支持的系统,其良好地识别在训练阶段(在评估阶段之前的图像的代表性样本的初始化和训练)中未使用的图像中的人的身份。 各种应用是可能的,例如。 自动化人识别,种族,性别,情绪,年龄等的识别。目前很好地描述了面部识别的区域,例如, 从传统方法(PCA,LDA)开始(Turk&Pentland1991; Marcialis&Roli,2002; Martinez&Kak,2001),并且目前通过核心方法继续(Wang,et al。,2008; Hotta,2008; Wang et al。2004; Yang,2002; Yang et al。2005)。 人脸识别的发展在书中(Li&Jain,2005; Delac et al。2008)和书章(Oravec et al。2008)也有总结。
我们的目的是提出复杂的视图生物识别面部识别包括方法,选定的方法(常规和核方法)的参数的设置,详细的识别结果,使用大型面部数据库获得的结果的比较和讨论。本章的其余部分组织如下:在第2节,我们提出了用于面部识别目的的方法的理论背景--PCA(主成分分析),LDA(线性判别分析)和SVM(支持向量机)。第3节提供关于FERET数据库的信息(FERET数据库,2001),因为在这个数据库中包括总共665个图像的大图像集被用在我们的实验中。首先对面部图像进行预处理(关于尺寸,位置和旋转以及对比度优化和面部遮蔽的标准化)。在第4节中,讨论了在本章其余部分中使用的面部识别方法。我们还提出利用PCA和LDA提取进一步分类为SVM的特征,并将其与常规分类器的常规方法进行比较的方法。第5节介绍了识别系统在理想条件下的结果。 我们展示了所提出的方法造成的优秀识别率和鲁棒性(抗变换性)。还详细分析了所提出的方法的行为,并且提出了用于这些方法的最佳设置。 第6节专门讨论输入图像质量对面部识别精度的影响。为此,我们使用最佳参数设置,我们在理想条件下运行600次测试。包括高斯噪声,椒盐噪声和具有各种强度的斑点噪声。这使得能够观察面部识别系统的鲁棒性。还讨论了来自识别点的不同类型的噪声的等效。
- 面部识别方法和算法
我们在单阶段和两阶段人脸识别系统中使用不同的方法:PCA(主成分分析),LDA(线性判别分析)和SVM(支持向量机)。 PCA和LDA的作用属于特征提取。 我们使用不同的分类器,它们既是简单度量又是更复杂的SVM。
2.1主成分分析PCA
该标准统计方法可以用于特征提取。 主成分分析PCA(Turk&Pentland,1991; Marcialis&Roli,2002; Martinez&Kak,2001; Haykin,1994; Bishop,1995)通过使所有投影样本的散射最大化的线性投影减少输入数据的维度。让作为属于c类中的一个的n维度的N个样本图像的集合。 它的协方差(总散射)矩阵是
(1)
PCA将输入图像变换为新的特征向量
k=1,2,...,N, (2)
其中是具有正交列的变换矩阵,是所有样本图像的平均图像。 这也产生维数降低(mlt;n)。 变换特征向量的散射是。 在PCA中,投影使投影样本的总散射矩阵的行列式最大化
(3)
其中是对应于m个最大特征值的一组n维特征向量(当应用PCA到面部图像时称为特征面)的集合。 因此,PCA最大化总散射 - 这是这种方法的缺点。
2.2 Fisher线性判别FLD,线性判别分析LDA
Fisher的线性判别法(FLD)(Marcialis&Roli,2002; Martinez&Kak,2001; Bishop; 1995; Belhumeur等人,1997; Oravec&Pavlovičovaacute;,2004; Duda&Hart,1973) 它更适合分类。 变换矩阵的计算导致类间散射和类内散射之间的比率的最大化。
类间散布矩阵和类内散布矩阵由下式定义
(4)
(5)
其中是类中的样本数,并且是的平均图像。变换矩阵最大化投影样本的类间散布矩阵的行列式与投影样本的类内散布矩阵的行列式的比率:
(6)
其中是和一组广义特征向量的集合,对应于m个最大特征值是:
i=1,2,...,m (7)
最多有c-1个非零广义特征值,即m的上界是c-1(Belhumeur等人,1997; Duda和Hart,1973)。
在(Marcialis&Roli,2002)中,的特征向量是的列,并且本书的作者显示该选择使比率最大化。
在面部识别中,样本图像的数量N通常远小于每个图像中的像素数n(所谓的小样本大小问题)。 这就是为什么可以是单数。的秩为至多N-c。 在(Belhumeur等人,1997)中,作者通过提出与(6)的替代标准的提议来解决奇异的问题。首先,使用PCA将样本图像投影到较低维空间中。 这导致非奇异。 PCA将特征空间的尺寸减小到N-c,然后应用标准FLD(6)将尺寸减小到c-1。 这个方法称为Fisherfaces。 然后可以计算如下:
(8)
其中,
(9)
(10)
的优化是通过矩阵执行的,的优化是通过矩阵执行的。 在PCA计算中丢弃最小的c-1主成分。
通常认为基于LDA的算法优于基于PCA的算法。 LDA是对照明方向的显着变化不敏感(Marcialis&Roli,2002; Belhumeur et al。,1997)和面部表情(Belhumeur et al。,1997)。 然而,在(Martinez&Kak,2001)中,作者表明,当训练数据集较小时,PCA与LDA相比获得更好的结果,并且PCA对不同的训练数据集较不敏感。
2.3支持向量机SVM
支持向量机SVM属于内核方法(Muller等人,2001; Hofmann等人,2008),并且在当前机器学习算法中起主要作用。 内核算法使用非线性映射将数据从原始空间x映射到更高维的特征空间F(Muller等人,2001)
(11)
在特征空间中使用来自原始空间的原始学习算法。 高维空间增加了问题的复杂性; 幸运的是,它可以解决。两个特征空间向量之间的标量积的计算可以使用核函数k来完成
(12)
因此,使用内核函数,不需要显式地计算特征空间,仅考虑内核特征空间中的内积。 高斯径向基函数,多项式,S形和逆多项式函数用于核函数的作用。 每个使用标量积的线性算法只能通过使用内核在高维特征空间中隐式执行。 非线性版本的线性算法可以这样构造(Muller等人,2001)。
通过SVM的数据分离的基本原理在图1中的简化示例中示出。
SVM完成了通过最大化超平面和支持向量之间的余量来找到最优分离超平面的任务。图1中包含支持向量的的虚线与分离超平面平行,并且它们穿过最接近分离超平面的样本。
分离超平面定义为:
(13)
其中w 是矢量的权重系数,b是偏差。寻找最优分离超平面的任务是通过最小化
(14)
完成的,对应的
(15)
其中,是一个松弛变量,它定义了支持向量周围的公差带,从而产生了所谓的软边际。C变量控制该公差带的影响。
图1 利用SVM数据分离
大量的可用论文,例如(Wang,et al。,2008; Hotta,2008; Wang et al。,2004; Yang,2002; Yang et al。,2005)表明SVMs和其他内核方法 组件分析,内核线性判别分析,核心径向基函数网络)也在面部识别领域。
2.4 指标
Mahalinobis(也称为Mahalanobis)余弦(MahCosine)(Beveridge等人,2003)被定义为投影到PCA特征空间中的图像向量之间的角度的余弦,并且通过方差估计进一步归一化。 令向量和作为未缩放的PCA空间中的图像向量(特征向量),并且向量s和t是它们在Mahalinobis空间中的投影。使用输入向量到向量的PCA投影的方差等于特征值(,其中是标准偏差)的事实,向量之间的关系被定义为:
(16)
Mahalinobis余弦是:
(17)
(这是Mahalinobis空间中的图像之间的协方差).LDASoft(Beveridge等人,2003)是LDA特定距离度量。 它类似于在Mahalinobis空间中计算的欧几里德测量,每个轴由广义特征值(也用于计算LDA基本向量)加权为0.2(Zhao等人,1999):
(18)
- 图像数据库
对于我们的测试,我们使用选自FERET图像数据库(Phillips等人,1998; Phillips等人,2000)的图像。 我们使用来自Gray FERET的灰度图像(FERET数据库,2001)。 FERET面部图像数据库是面部识别研究中的事实标准数据库。 它是一个复杂和大型的数据库,包含超过14126图像的1199主题的尺寸256 x 384像素。 图像在头部位置,照明条件,胡子,眼镜,发型,表达和受试者的年龄不同。 图2示出了来自FERET数据库的一些示例图像。
我们选择了包含来自82个受试者的总共665个图像的图像集。 它包括来自整个FERET数据库的所有可用主体,其具有包含也对应的眼睛坐标的多于4个正面图像(即,我们从FERET数据库中选择满足这些条件的最大可能的集合)。 所使用的图像集在图3中可以看到。
识别率受训练集大小的显着影响。 我们使用3个不同的图像组用于训练 - 即训练集中每个主体的两个,三个和四个图像。根据他们的文件名从FERET数据库中提取两个,三个或四个训练图像,而来自该组的所有剩余图像 用于测试目的。
在特征提取之前,所有图像被预处理。 预处理消除了基于非生物统计数据(例如,“T恤衫识别”或“理发识别”)的不期望的识别。 预处理包括将原始FERET图像转换为规格化图像的以下基本步骤:
- 几何归一化 - 根据眼睛的可用坐标对准图像。
-
遮罩 - 使用椭圆形遮罩和图像边框裁剪图像。 在我们的实验中,我们尝试了两种不同的掩蔽:
- “脸” - 使得只有从前额到下巴和脸颊到脸颊的脸是可见的。
- “BIGface” - 留下更多的脸部周围相比,“脸” - 更有潜在有用的信息被保留。
- 直方图均衡 - 均衡图像未屏蔽部分的直方图。
图2 FERET数据库的图像示例
图3 实验中使用的FERET数据库的图像子集的可视化
预处理后,图像大小为65x75像素。图4示出了原始图像,“脸部”预处理之后的图像和“BIGface”预处理之后的图像的示例。来自图2的图像经预处理后的“BIGface”预处理图像如图5所示。
图4 原始图像、“脸部”预处理之后的图像和“BIGface”预处理之后的图像的示例
图5 图像经“BIGface”预处理的图像
- 面部识别的方法
我们检查了五种不同的面部识别实验设置。它们包含单阶段和两阶段识别系统,如图6所示。
- 在单阶段面部识别(图6a)中,SVM用于直接分类(即没有执行特征分离)。
- 对于包括特征提取和分类(图6b-图6e)的两阶段脸部识别设置,我们使用具有MahCosine度量的PCA,具有LDASoft度量的LDA和我们提出的方法利用PCA和LDA进行特征提取,然后进行SVM分类。 我们还提出了最佳参数设置为这些方法的最佳性能。
图6 实验中使用的方法和分类器
最后两个设置(图6d)和e))是我们提出的组合的高效特征提取结合强分类器。 第三个设置(图6a)-c))是常规
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[139445],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。