人脸识别:卷积神经网络方法外文翻译资料

 2022-06-23 20:17:10

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


人脸识别:卷积神经网络方法

Steve Lawrence,IEEE会员,C. Lee Giles,IEEE高级会员,Ah Chung Tsoi,IEEE高级会员,

和IEEE会员Andrew D. Back

要 - 面部表示复杂的多维有意义的视觉刺激,并且开发面部识别的计算模型是困难的。 我们提出了一种混合神经网络解决方案,与其他方法相比,这种解决方案有优势 该系统结合了局部图像采样,自组织映射(SOM)神经网络和卷积神经网络。 SOM将图像样本量化为拓扑空间,其中原始空间中附近的输入也邻近输出空间,从而为图像样本中的微小变化提供降维和不变性,并且卷积神经网络提供对于平移,旋转,缩放和变形的部分不变性。 卷积网络在层次集合中依次提取更大的特征。 我们使用Karhunen-Loe`ve(KL)变换替代SOM,并使用多层感知器(MLP)代替卷积网络来呈现结果。 KL变换几乎同样如此(5.3%的误差与3.8%的误差)。 MLP表现很差(40%的错误比3.8%)。 该方法能够进行快速分类,仅需要快速近似归一化和预处理,并且与数据库上的特征脸方法相比,始终表现出更好的分类性能,因为训练数据库中每个人的图像数量从1变化到5。 由于每人五张图像,所提出的方法和特征脸分别导致3.8%和10.5%的误差。 识别器提供了对输出的置信度度量,分类错误接近零时拒绝只有10%的例子。 我们使用包含40个人的400幅图像的数据库,其中包含表达,姿势和面部细节的相当高度的可变性。 我们分析计算复杂性并讨论如何将新类添加到训练过的识别器中。

键词:人脸识别,卷积神经网络,自组织特征映射,Karhunen-Loe#39;ve变换,混合系统,访问控制,模式识别,图像分类。

  1. 介绍

T

他对计算机化访问控制中的可靠个人身份识别的要求已经引起人们对生物识别技术的兴趣增加。1正在调查生物识别技术

手稿于1996年1月1日收到; 修订于1996年6月13日。这项工作部分得到了澳大利亚研究委员会(ACT)和澳大利亚电信和电子研究委员会(SL)的支持。

S. Lawrence在美国新泽西州普林斯顿的NEC Research Institute,NJ 08540 USA。 他还在澳大利亚圣卢西亚的昆士兰大学电气与计算机工程系工作。

CL Giles在美国新泽西州普林斯顿市的NEC研究所工作。 他还在马里兰大学高等计算机研究所,College Park,MD 20742 USA。

AC Tsoi和AD Back与澳大利亚圣卢西亚昆士兰大学电子与计算机工程系合作。

发布商商品标识符S 1045-9227(97)00234-8。

1唯一识别我们的生理或行为特征。

包括指纹[4],语音[7],签名动态[36]和人脸识别[8]。 身份验证产品的销售额超过1亿美元[29]。 人脸识别具有被动,非侵入性验证个人身份的好处。 用于最佳人脸识别系统的技术可能取决于系统的应用。 我们可以识别至少两个大类的人脸识别系统。

  1. 我们希望在面部的大型数据库中找到一个人(例如,在警察数据库中)。 这些系统通常会返回数据库中最可能的人员列表[34]。 通常每个人只有一个图像可用。 识别通常不需要实时进行。
  2. 我们希望实时识别特定人员(例如,安全监控系统,位置跟踪系统等),或者我们希望允许访问一群人并拒绝其他人访问(例如,访问建筑,电脑等)[8]。 通常每个人都有多幅图像用于训练,并且需要实时识别。

在本文中,我们主要关注第二种情况2。我们对不同面部细节,表情,姿势等的识别感兴趣。我们不考虑高度旋转或缩放的不变性 - 我们假设最小如果需要,预处理阶段可用。 我们对快速分类感兴趣,因此我们不会认为时间可用于大量的预处理和标准化。 在[37],[40]和[43]中可找到用于定位图像中人脸的好算法。

本文的其余部分安排如下。 我们使用的数据在第二节中介绍,与此有关的工作和其他数据库在第三节中讨论。 第四部分和第五部分分别介绍了我们系统的组件和细节。 我们在第六部分和第七部分介绍并讨论我们的结果。 第八节考虑计算复杂性,第九节列出进一步研究的途径,我们在第十节中得出结论。

  1. 数据

我们使用了ORL数据库,该数据库包含了1992年4月至1994年4月在Olivetti的一组面孔

2但是,我们还没有进行任何实验,要求系统拒绝不在选定组别的人员(例如允许进入建筑物时很重要)。

1045-9227 / 97 $ 10.001997 IEEE

图1. ORL人脸数据库。 40个科目中有10个图像。

英国剑桥研究实验室340个不同科目共有10幅不同的图像。 对于一些主题,图像是在不同的时间拍摄的。 面部表情(开放/闭合的眼睛,微笑/非微笑)和面部细节(眼镜/没有眼镜)有变化。 所有的图像都是在黑暗的均匀背景下拍摄的,拍摄对象处于直立的正面位置,可以容许一些倾斜和旋转角度达到约20度。 规模有一些变化,高达约10%。 所有图像的缩略图如图1所示,一个主题的一组更大的图像如图2所示。图像是灰度,分辨率为92 112。

3ORL数据库免费提供,请参阅http://www.cam-orl.co.uk/facedatabase.html。

  1. 相关工作
  2. 几何特征

许多人已经探索了基于几何特征的人脸识别方法。 Kanade [17]提出了一种基于距离比率的自动特征提取方法,并报告了20-人的数据库中45-75%的识别率。 Brunelli和Poggio [6]计算出一组几何特征,例如鼻子宽度和长度,嘴巴位置和下巴形状。 他们对47人的数据库报告了90%的认可率。 然而,他们表明一个简单的模板匹配方案为同一个数据库提供100%的识别。 Cox等人 [9]最近引入了混合距离技术,达到了识别率

图2.一个主题的一组十个图像。 可以看到相当大的变化。

的95%使用来自总共685个人的95个图像的查询数据库。 每个脸部由30个手动提取的距离表示。

使用精确测量的要素间距离的系统对于在大型面部照片数据库中找到可能的匹配可能最为有用4对于其他应用,需要自动识别这些点,并且所得到的系统将取决于特征的准确性定位算法。 当前用于自动定位特征点的算法不能提供高度的准确性并且需要相当大的计算能力[41]。

  1. 特征脸

高级别识别任务通常用许多阶段的处理来建模,如从图像到表面到三维(3-D)模型到匹配模型的Marr范例[28]。 然而,Turk和Pentland [43]认为,很可能还有基于低级二维(2-D)图像处理的识别过程。 他们的论点是基于人类面部识别的早期发展和极端速度,以及猴子皮层中的声称具有对面部有选择性响应的孤立神经元的生理实验[35]。 然而,这些实验并不清楚Marr范式的唯一操作。

Turk和Pentland [43]提出了一种人脸识别方案,将人脸图像投影到原始训练图像组的主成分上。 所得到的特征脸通过与已知个体进行比较而被分类。

土耳其人和Pentland在一个有16个主题的数据库中显示结果,这些主题有不同的头部定向,缩放和照明。 他们的图像显示完全相同,否则在面部表情,面部细节,姿势等方面变化很小。对于照明,方向和尺度变化,他们的系统分别达到96%,85%和64%的正确分类。 基于头部尺寸的估计,将尺度重新归一化为特征面尺寸。 脸部中间突出,减少了改变发型和背景的负面影响。

在Pentland等人 [33],[34]在一个大型数据库中报告了良好的结果(95%的人认可了200人

4一个面部照片数据库通常包含侧视图,其中特征点方法的性能已知可以提高[8]。

数据库3000)。 很难得出广泛的结论,因为许多同一人的图像看起来非常相似,并且数据库具有准确的注册和对齐[30]。 在Moghaddam和Pentland [30]中,使用FERET数据库报告了非常好的结果 - 在对150个正面图像进行分类时只有一个错误。 该系统对头部位置,特征检测和面部几何形状,平移,光照,对比度,旋转和缩放进行了标准化处理,并进行了大量预处理。

Swets和Weng [42]提出了一种使用多维线性判别分析来选择判别特征的方法。 他们提出了确定最具表现力特征(MEF)和最具歧视性特征(MDF)的方法。 我们目前还没有意识到可以得到与特征面相当的结果(例如,在Moghaddam和Pentland [30]的FERET数据库中)。

总之,看起来,特征脸是一种快速,简单和实用的算法。 然而,由于最佳性能要求训练图像和测试图像的像素强度之间高度相关,因此可能会受到限制。 通过使用广泛的预处理来规范化图像,解决了此限制。

  1. 模板匹配

模板匹配方法如[6]通过执行图像片段的直接相关性来进行操作。 当查询图像与训练图像具有相同的比例,方向和照度时,模板匹配才有效[9]。

  1. 图匹配

另一种面部识别方法是众所周知的图匹配方法。 在[21]中,Lades等人。 提出了一种动态链接结构,用于失真不变对象识别,采用弹性图匹配来找到最接近的存储图。 对象用稀疏图表示,其顶点根据局部功率谱用多分辨率描述标记,并且其边缘用几何距离标记。 他们用87个人的数据库呈现了良好的结果,并且由不同表情和脸部构成的测试图像变成了15。 匹配过程在计算上是昂贵的,使用时大约需要25s将图像与87个存储的对象进行比较

图3.局部图像采样过程的描述。 一个窗口跨越图像,并在每个位置创建一个矢量。

一台有23台运输机的并行机器。 Wiskott等人 [45]使用该技术的更新版本,并将300张脸比对来自FERET数据库的同一人的300张不同面孔。 他们报告的识别率为97.3%。 没有给出这个系统的识别时间。

  1. 神经网络方法

目前关于神经网络人脸识别的大多数文献都只提供了少量类(通常低于20)的结果。 我们简要介绍几种方法。

在文献[10]中,图像的前50个主要成分被提取并使用自相关神经网络缩减为五维。 得到的表示使用标准多层感知器(MLP)进行分类。 报告结果良好,但数据库非常简单:图片是手动对齐的,没有光线变化,旋转或倾斜。 数据库中有20个人。

Weng和Huang [44]将人工神经网络用于人脸识别,该神经网络自动生长并且未经梯度下降训练。 他们报告了对十个独特主题的歧视的好结果。

  1. ORL数据库

在[39]中,基于隐马尔可夫模型(HMM)的方法被用于ORL数据库图像的分类。 最好的模型导致13%的错误率。 Samaria还使用ORL数据库上流行的特征脸算法[43]进行了广泛的测试,并且当特征脸的数量在175和199之间时,报告最佳误差率为10%左右。我们实现了特征脸算法,并观察到约10%的误差。 在[38]中,撒马利亚用伪二维HMM扩展了[39]中自顶向下的HMM。 以高计算复杂度为代价,错误率降低到5% - Sun Sparc II上的单个分类需要4分钟。 Samaria指出,虽然识别率提高了,但用伪二维HMM得到的分割看起来很不稳定。 撒马利亚使用与我们一样的训练和测试集大小(200个训练图像和200个测试图像,两组之间没有重叠)。 5%的错误率是最好的

以前报告的我们知道的ORL数据库的错误率。

  1. 系统组件
  2. 概观

在下面的章节中,我们将介绍构成我们系统组件的技术,并描述我们使用它们的动机。 简而言之,我们探讨了局部图像采样和局部光照不变性技术的使用,自组织图(SOM)用于将图像样本表示投影到量化的低维空间中,用于比较的Karhunen-Loe#39;ve(KL)变换与SOM,用于部分平移和变形不变性的卷积网络(CN)以及用于与卷积网络进行比较的MLP。

  1. 局部图像采样

我们评估了表示局部图像样本的两种不同方法。 在每种方法中,如图3所示,在图像上扫描窗口。

    1. 第一种方法是使用窗口中每个点处的亮度值从图像上的局部窗口简单地创建一个矢量。 让是给定图像的第th列和第/行的强度。 如果本地窗口是边的正方形2W 1长,居中,那么与这个窗口相关的向量就是简单的

    1. 第二种方法通过从1)中心像素的强度和2)中心像素与方形窗口内的所有其他像素之间的强度差异形成矢量来创建局部样本的表示。 该载体由

所得到的表示对完整样本的强度变化部分不变。 的程度

不变性可以通过调整连接到中心强度分量的权重来修改。

  1. 自组织映射
    1. 介:地图是自然和人工神经信息处理系统的重要组成部分[2]。 神经系统中的地图例子是视皮层中的视网膜地图[31],听觉皮层中的听音图[18],以及从皮肤到躯体感觉皮层的映射[32]。 Kohonen [19],[20]介绍的SOM是一个无监督的学习过程,它学习了一组没有任何类信息的模式分布。 模式从输入空间投影到地图上的一个位置 - 信

      全文共21713字,剩余内容已隐藏,支付完成后下载完整资料


      资料编号:[10765],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。