英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
具有整体学习功能的块式双向2DPCA,用于人脸识别
作者:Ali Mashhoorin, Mansoor Zolghadri Jahrom
单位:设拉子大学计算机科学与工程系,设拉子,伊朗
文章信息:
文章历史记录:
2012年3月26日接收,
以修订形式接收于2012年12月7日
接受于2012年12月10日,
与(X.Li)交流在线2年1月2日
摘要
二维主成分分析(2DPCA)是一种众所周知的人脸识别特征提取方法。与基于矢量的PCA相比,此方法的主要缺点之一是它需要更多的系数来表示图像的特征矩阵。 文献中提出的双向2DPCA((2D)2PCA)试图缓解此问题。 但是,它不能提高2DPCA的识别精度。 此外,(2D)2PCA遵循全局特征提取方法,该方法可能无法保留一些重要的局部特征。 在本文中,我们提出了Block-Wise(2D)2PCA,以通过保留局部信息变化来增强(2D)2PCA的性能。 平均而言,通过所提出的方法产生的特征矩阵与由(2D)2PCA形成的特征矩阵的大小大约相同。 然而,我们在四个面部识别数据库上进行的实验表明,我们的方法在识别精度方面优于(2D)2PCA。
2012 Elsevier B.V.保留所有权利。
关键词:主成分分析(PCA)、二维PCA(2DPCA)、特征提取、人脸识别
导论
人脸识别是模式识别研究最多的领域之一。 然而,这仍然是一项艰巨的任务,面临许多有待解决的问题。 通常,人脸识别过程包括两个连续的阶段:首先,应用算法从一组训练图像中提取信息特征。 在第二阶段,分类器使用提取的特征来识别查询图像的主题。
基于主成分分析(PCA)[1]的方法是最著名的特征提取方法之一,已被许多研究人员用于处理人脸识别任务的第一阶段。 PCA最早用于特征脸方法 [2–4]中,用于人脸识别中的特征提取。 在该方法中,作为预处理步骤,将每个2D图像转换为高维向量。 这种转变导致了一些重要的问题,例如维数灾难和小样本量问题[5]。 为了克服这些缺点,提出了二维主成分分析(2DPCA)[5-7]。 与基于矢量的方法相比,该方法保留了图像的二维结构,并且生成了低得多的协方差矩阵。然而,2DPCA仅考虑图像列之间的相关性,而忽略行之间的相关性。 而且,与PCA相比,它需要更多的系数来表示特征空间中的图像[5,6]。 提出了双向2DPCA((2D)2PCA)[8]作为2DPCA问题的解决方案。 由于其优势,(2D)2PCA已被应用于许多应用中[9-11]。 与2DPCA相比,(2D)2PCA利用图像的行和列之间的关系,使用较少的系数来表示图像的特征矩阵,但是在大多数情况下,(2D)2PCA和2DPCA几乎达到了相同的识别精度。
上述所有方法所面临的问题是本地信息的丢失。 在这些基于PCA的算法中,以全局方式提取信息最多的变化。因此,可能会丢失一些有用的本地信息,而倾向于更重要的全局变化。 通过增加用于构建投影矩阵的特征向量的数量,可以保留更多这样的变化,但是,与此同时,更多的无信息和噪声变化也将被转换到特征空间中。
为了减轻本地信息丢失的问题,一些研究者提出了分块算法。 分块PCA(BPCA)[12]将图像划分为多个块,并在每个块中使用PCA进行特征提取。 BPCA将每个块视为一个样本,并计算单个投影矩阵以转换所有块。 已经显示2DPCA是BPCA的特殊情况[13]。 遵循L1规范(BPCA_L1)[14]的块PCA遵循与BPCA类似的方法,但是并非L2规范,而是使用L1规范来定义其优化问题。同样,逐块2D内核 PCA [15]在特征提取中采用逐块方法来降低内核2DPCA [7]的计算复杂性。
本文提出了一种新的基于PCA的人脸识别算法,与以前的相关方法相比,该算法提供了一种获得更高识别率的有效方法。在特征提取阶段,我们采用与BPCA类似的方法:保留人脸的局部信息图片,我们将其分为多个块。但是,我们没有将块转换为向量并应用PCA,而是在每个块中采用(2D)2PCA进行特征提取。 因此,我们处理大小为h2和w2的散布矩阵,而不是(h*w)2,这是BPCA的情况(h和w分别代表每个块的高度和宽度)。 此外,BPCA结合了所有块的内容以获得散点矩阵,从该散点矩阵可以计算出单个投影矩阵并将其用于转换块。相比之下,我们为每个块的内容计算一个不同的散点矩阵,并将每个块转换为唯一的 包含该块信息最多的变体的子空间。 而且,与BPCA不同,我们的方法具有灵活性,可以使用不同数量的特征向量来构造来自不同块的特征矩阵。
通常,基于PCA的方法使用最近邻居算法来识别输入查询图像。这种方法不适用于我们的方法,因为从不同块中提取的特征属于不同的子空间,并且大小可能有所不同。取而代之的是,我们使用一组最近邻分类器。每个分类器对应于一个块,并根据其相应块的内容确定输入图像与训练集中的每个对象之间的相似性。 通过汇总从所有分类器获得的分数来做出最终决定。 每个分类器对最终决策的影响与输入块内容之间的类间差异成正比。在[16]中也进行了集成学习,以结合局部和全局特征。
我们使用四个数据库来评估我们的方法:ORL(AT&T)数据库,耶鲁人脸数据库,香港理工大学NIRface数据库和艾塞克斯大学人脸识别数据库。我们的实验表明,虽然我们的方法平均使用与(2D)2PCA相同数量的系数来表示特征矩阵,但在识别精度方面优于(2D)2PCA。
本文的其余部分,我们首先介绍我们在第2节中的算法,在第3节中,将我们的方法与几种相关方法进行了比较,并研究了所提出方法的参数如何影响其准确性。 最后,在第4节中,我们作了一些总结性说明并提出了一些建议,以增强我们的方法。
2. B(2D)2PCA:块状双向2DPCA
在本节中,我们介绍方法的详细信息,表示为B(2D)2PCA。 在第2.1节中,我们介绍了在B(2D)2PCA中执行特征提取所需的步骤。 在第2.2节中,我们说明了使用提取的特征来识别输入查询图像的方式。
2.1 特征提取阶段
我们采用逐块特征提取方法,这是受以下事实启发的:人类识别脸部的一种自然方法是利用脸部局部脸部特征与已知脸部之间的相似性(例如,眼睛,鼻子等之间的相似性)。这样,即使整个脸部都不暴露于我们,我们也能够识别出脸部。因此,我们的方法首先将每个图像划分为预定数量的非重叠块,每个块均包含该图像的一些局部特征。 然后,它应用(2D)2PCA将每个块的内容转换为一个子空间,该子空间保留了该块的大多数信息性变化并使用少量系数表示,而消除了次要和无关紧要的变化。 该过程用以下两个步骤表示:
2.1.1 步骤1
用表示第i个样本图像。 Ai的图像矩阵分为Nb=DHDW个块数,其中DH和DW是在垂直和水平方向上的划分数,如(1)所示。 每个块的宽度和高度可以分别计算为w=W/Dw和h=H/Dh。
B(2D)2PCA的基本假设是图像中的面孔具有轻微的位置变化,并且不同图像中的相应块包含相同的特征。 因此,为了提高该方法对位置变化的鲁棒性,优选大块尺寸而不是小块。 然而,最佳的块大小最终取决于每个特定数据库的特征。
2.1.2 步骤2
分割图像后,使用(2D)2PCA缩小每个块的大小,同时保留其大部分信息变化。 这是通过将块矩阵同时投影到2DPCA右乘和左乘投影矩阵中来实现的。同时,使 和定义为:
其中 ,通过分别选择与Gp,q和Gp,q的最大特征值相对应的dp和dp特征向量来构造PCA右乘和左乘投影矩阵Wp,q和Zp,q:
其中Wip,q和Zip,q是对应于Gp,q和Gp,q的第i个最大特征值的特征向量。 构造投影矩阵的特征向量dp(dp)的数量Wp,q(Zp,q)可以手动设置,也可以通过以下标准确定:
其中lambda;i是Gp,q(Gp,q)的第i个最大特征值,而theta;是预定阈值。
通过将每个块Bip,q投影到Wp,q和Zp,q中,可以获得具有减小的大小为Fip,qisin;Rdrsquo;p*dp的新块:
这样,如式(8)所示,对于每个样本Ai,都会获得具有与以前相同的块数但尺寸减小的特征矩阵:
为了将给定的测试图像Xt转换为特征空间,将Xt划分为Nb个块后,Ftp,qisin;Rdrsquo;p*dp的计算公式为:
2.2 分类阶段
所提出的分类方法使用Nb(块数)最近邻分类器的整体来确定测试样品的标签。 每个分类器对应于一个块。但是,不是将输入块分类为一个类别,而是每个分类器以一组置信度投票给问题的每个类别。这样,对于L类问题,每个分类器都会产生L个置信度。为了对输入的测试图像进行分类,计算每个类别的置信度总和,然后选择具有最大总和的类别作为输出类别。
令Cl,k为关于块k的内容测试图像属于第l类的置信度。 然后,Cl,k定义为:
Dl,k表示测试图像的第k块与第l类图像的相应块之间的最小距离。该距离的计算公式为:
其中 ║bull;║Fro表示Frobenius范数。
在(10)中,参数sigma;是确定距离Dl,k如何影响置信度的正常数。 对于sigma;的较小值,置信度对距离更敏感。当sigma;接近零时,分类过程变得与使用简单多数表决确定结果类的情况相同。但是,正如我们后面将要展示的那样,简单投票不会产生最佳结果。
(10)中的参数alpha;是一个归一化常数,以强制所有类别的置信度之和等于1。
该归一化步骤使置信度与块中距离的大小无关。将测试样本分配给第l类的总置信度可通过以下方式获得:
将测试样本分配给类别l,该类别的总置信度在所有类别中具有最大的总和。如果一个以上的类别满足此条件,则从这些类别中随机选择测试样本的标签。
3.实验结果和讨论
本节介绍了我们在耶鲁大学,ORL,香港理工大学NIR和艾塞克斯大学人脸识别数据库上的实验结果。
在我们所有的实验中,我们使用Frobenius范数作为所有方法的距离函数:
其中F和Fi是Rhtimes;w中的两个特征矩阵。
3.1. 在Yale和ORL数据库上进行实验
耶鲁人脸数据库1包含15个人的165张灰度图像。 对于每个对象,存储了11张面部表情,面部细节或光线方向有所变化的图像。在那里所有图像的解为243*320像素。
ORL数据库2包含400个40个人的灰度图像。每个对象的图像代表面部和情绪表情,面部细节,比例以及有限的旋转方面的一些变化。所有图像均被标准化为112*92像素的分辨率。
我们提到,我们在Yale和ORL数据库中以原始形式使用了这些图像,而没有对其进行大小调整或裁剪。
3.1.1. 最佳识别率方面的比较
对于每个数据库,我们从每个受试者的图像中选择k(k = 2、4、6和8)个样本的子集作为训练集,并使用其余图像来评估2DPCA [5],A2DPCA [ 8],GridPCA [17],(2D)2PCA [8],BPCA [12],BPCA_L1 [14],LBDPCA [18]以及所提出的方法。
为了找到每种方法可获得的最高识别率,我们使用不同的参数设置多次执行每种方法,使用了大量的训练样本,并记录了达到的最高平均准确度。为此,我们使用随机训练子集重复了40次实验。
表1
耶鲁数据库上的最佳识别率(%)
表1比较了通过耶鲁数据库上的各种方法获得的最佳识别率。对于建议的方法,本节中报告的所有实验均使用243*64像素和sigma;= 250的块。对于BPCA和BPCA_L1,块均为27*32像素,对于Grid PCA,网格大小等于9*10像素。 LBDPCA的参数设置为50。从表1的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237486],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。