基于预期传播统计学习框架的同时聚类和特征选择 的面部识别及面部表情识别外文翻译资料

 2022-04-26 22:48:43

英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料



基于预期传播统计学习框架的同时聚类和特征选择

的面部识别及面部表情识别

作者:Wentao Fan · Nizar Bouguila

摘要

在本文中,我们着重于开发一个新颖的框架,它可以有效用于面部识别(即区分非面部特征的面部)和面部表情识别。所提出的统计框架是基于通用二进制分布(GD)混合的二进制过程,用于建模本地二进制模式(LBP)特征。我们的方法是建立在非参数贝叶斯分析的基础上的,在这种分析中假设了无限多的混合成分,从而避免了对簇数的确定。无人监督的特征选择方案还将与所提出的非参数框架相结合,以提高建模性能和泛化能力。通过使用期望传播(EP)推理方法学习所提出的模型,可以同时以一个单一的优化框架评估所有相关的模型参数和特征的显著性。此外,通过采用局部特征选择方案,扩展了所提出的框架,该方案根据我们的结果显示了优越的性能,以确定最重要的面部特征,而不是全局特征。通过大量的综合数据和具有挑战性的人脸检测和面部表情识别的经验研究结果说明,拟议方法具有有效性和实用性。

关键词:期望传播,特征选择,人脸检测,面部表情识别

导言

人脸信息的自动处理一直是人们广泛研究的课题。研究工作的主要驱动力是人的面部在社会互动、心理研究、医学中的面部神经分级、人与电脑的互动、智能环境、执法(如刑事鉴定)等方面所起的关键作用。安全(例如:出入控制和认证[58])和军事(例如:现场监视)应用程序。事实上,复杂的信息范围(例如身份、性别、种族、情感和注意力状态、年龄)可以从人的脸上提取。然而,这些信息的自动提取是非常具有挑战性的,特别是在不同的照明条件下,观察方向和伪装,如眼镜或化妆。本文将重点讨论与人脸分析有关的两个重要的挑战性问题,即人脸检测和人脸表情辨识.事实上,这两个问题都引起了很大的兴趣
在过去的十年左右。人脸检测的目的是区分人脸和非人脸模式。这是计算机视觉中的一个关键任务,也是复杂面部识别系统的一个常见预处理步骤。另一方面,面部表情识别是一种视觉学习的过程,它涉及到对一系列典型的情感表达的识别,包括愤怒、厌恶、恐惧、喜悦、惊讶和悲伤。在过去的二十年里,各种面部表情识别技术得到了发展。

在所有人脸检测和面部表情识别方法中,一个重要的步骤是从原始人脸图像中提取面部特征。掌握了面部特征后,现在一个关键的问题是找到一种有效的方法来表现这些视觉特征。最成功的方法是基于人脸空间的统计表示,例如,我们考虑了脸检测和面部表情识别的问题,使用我们通过变分推理框架而学习的有限广义二乘法(GD)混合模型和特征选择。本文的目的是对[19]中描述的工作进行扩展和修订,提出一种基于无限GD混合模型的人脸检测和面部表情识别的统计框架。使用GD混合物的动机是由于它在一般非高斯数据和比例数据(例如归一化直方图)的情况下具有极好的建模能力。

在这项工作中,我们将有限GD混合模型扩展到无限情况,通过非参数贝叶斯技术,也就是二元过程,通过假设有无限多的混合成分。非参数贝叶斯方法的一个重要方面是,一个指定的统计模型的复杂性随着数据的大小而增加。因此,在非参数贝叶斯方法中避免了超配和不配的问题。此外,不像我们以前的作品和许多其他作品那样使用全局的(即为所有混合物成分产生一个共同的特征子集)无监督的特征选择方法,我们采用了一个如本文所提出的局部的特征选择方案,该方案的主要思想是不同的特征子集与不同的混合组分相关联。这是目前工作的另一项重要贡献,其动机是,最近的工作表明,在实际应用中,全球特征选择可能不现实,而且局部化的特征选择通常能提供更好的结果。值得注意的是,有效的人脸分析方案需要缩小维度以提高识别能力。经典的方法是利用特征提取技术,如主成分分析(PCA)和内核PCA作为预处理步骤。我们的方法是不同的,是基于特征选择,而不是特征提取。这可以保持面部特征的物理意义,并在一个连贯统一的统计框架中同时进行维数的减少和建模。这项工作的另一项贡献是,与其像我们在中那样使用变分推理来学习混合模型,所提出的模型是通过期望传播(ep)学习框架学习的,其结果一般比变分推理的结果更好。通过采用ep学习框架,可以在一个单一的优化框架中同时评估所有相关的模型参数和特征的显著性。通过大量的实验结果,证明了该方法在人脸检测和面部表情识别中的有效性。

本文其余部分的编排如下:第二节简要回顾了一些相关的工作。第三部分介绍了无监督特征选择的无限GD混合模型。在第四节中,我们开发了一个基于ep模型的倾斜框架来学习所提出的模型。在第5节中,我们建议扩展我们的方法,在我们的模型中加入一个本地化的特征选择方案。第6节专门讨论实验结果。最后,我们在第7节提出我们的结论。

相关作品

在所有人脸检测和面部表情识别方法中,一个核心步骤是从原始人脸图像中获得有效的面部表现。一般来说,有两类方法可以用来提取面部特征,它们是基于几何特征的还是基于外观的。基于几何特征的方法通过提取面部成分的形状和位置来建立一个面部特征向量来表示面部的几何形状。虽然基于几何特征的方法在面部分析应用中取得了良好的效果,但它们在很大程度上依赖于精确可靠的面部特征检测和跟踪,而这在很多情况下是很难实现的。或者,基于外观的方法利用图像过滤器到整个或特定区域的人脸图像,以提取面部的外观变化[3,45,61]。在现有的基于外观的方法中,许多工作由于其有希望的性能而采用了哈伯-小波表示法。然而,哈伯-小波表示经常受到其高计算成本的限制。与其他面部表情特征(如哈伯小波表示法)相比,局部二进制模式(LBP)只需要有限的计算能力。此外,LBP的特性也显示了它对不同因素的鲁棒性,如在以前的研究中,对物体的角度变化,光照变化,低分辨率的人脸数据,或老化。通过大量的实验表明,LBP特征对面部表情的识别是有效的。因此,我们采用LBP特征结合无限GD混合模型来解决人脸检测和面部表情识别两方面的问题。

3、具有特征选择的无限GD混合模型

在本节中,我们首先简要回顾了上文提出的具有特征选择的有限GD混合模型。然后,我们通过非参数贝叶斯技术,也就是使用粘断表示的二立基过程,将其扩展到无限情况。

3.1、具有特征选择的有限GD混合模型

假设我们得到了一个n个独立且均匀分布的向量集合,其中每个d维随机向量被假设为根据一个有限的gd混合模型分布,m个分量为:

, (1)

根据文献[12]详细讨论的gd分布的数学性质,我们可以将原始数据点转化为另一个具有独立特征的d维空间,并以以下形式重写有限gd混合模型:

(2)

值得一提的是,上式是gd混合物的一个重要性质,因为在新数据集的情况下,特征之间的独立性,成为一个事实,而不是一个假设,在以前的高斯混合式无监督特征选择方法中被考虑。

在实践中,特征对于聚类任务通常并不同样重要,因为有些特征可能是“噪声”,因此对聚类过程没有帮助。因此,我们采用特征选择技术,通过识别不相关的特征来提高学习成绩。在我们的工作中,我们采用了一种不受监督的特征选择方案,该方案在[12,37]中显示了关于混合模型的有希望的结果:LTH特征如果其分布独立于类标签,即如果它遵循一个共同分布,则该特征是不相关的。因此,我们可以将混合模型近似为

(3)

其中和分别是相关和无关特性的贝塔分布参数。向量使用和显示了特征的显著性。

3.2具有特征选择的无限gd混合模型

在本小节中,我们将有限gd混合模型扩展为无限情形,采用了二立过程(dp)混合模型的框架。在我们的工作中,dp过程是通过一个断键表示来构建的[8,55]。也就是说,g是基分布h和浓度参数B(记为gdp(B,h))分布的二立基过程,如果满足以下要求:

(4)

其中是位于的一个点质量。混合权数的构造可以通过递归地将一个单位长度的棒打破成无限多个碎片来理解。

4、具有特征选择的无限gd混合物的ep基学习

在本节中,采用ep推理框架学习具有特征选择的无限gd混合模型。ep是一个递归近似方案,基于最小化柯勒背----Leibler(kl)在真模型的后向和近似[48,49]之间的发散。它是对单点密度滤波的一种扩展,这是一种单点序列逼近方法。与adf相比,输入数据点的顺序在ep推理中并不重要,它的推理精度通过多次重复使用数据点而得到提高。此外,与马尔科夫链蒙特卡洛(mcmc)和吉布斯采样技术相比,ep的主要优点在于其优越的计算效率。

扩展为本地化特征选择

值得注意的是,在第三节中提出的无限gd混合模型算法通过为所有集群生成一个共同的特征子集,以全局的方式进行特征选择。然而,在现实生活中,全局特征的选择可能并不现实,因为数据的局部内在属性往往起着更关键的作用
作用[38]。最近,许多作品都表明,本地化的特征选择通常能提供比全局更好的性能[23,38]。由于其优越性,我们扩展了模型,以便在本小节中集成局部特征选择。

实验结果

在本节中,通过合成数据集和两个具有挑战性的现实应用,即人脸检测和人脸输出识别,对所提出的具有特征选择(igd)的无限gd混合模型的有效性进行了评估。我们的合成数据目标是研究我们的算法在参数估计和模型选择方面的准确性,并将其性能与[11]中提出的基于mcm的方法进行比较。对于实际应用,我们通过将算法的性能与其他三种统计方法进行比较来证明算法的优点,其中包括变分有限gd混合模型和特征选择(var gd),如[19]中所建议的,第4节提出的有限gd特征选择混合模型和无限gd特征选择混合模型。注意到,除了使用变分推理学习的var gd算法外,fgd、igd和lo igdare都是使用ep框架学习的。

6.1 合成数据

在这一部分中,对所提出的igd算法的性能进行了四维度(两个相关特征和八个无关特征)综合数据集的评估。我们在转换后的空间中生成了第3.1节中所示的有关合成数据的相关特征,这些数据来自分离良好的贝塔分布的混合物,而从重叠的贝塔成分的混合物中合成了无关的特征。表1显示了使用我们的算法来表示每个数据集的相关特征分布的真实参数和估计参数。根据这一结果,利用所提出的igd方法,准确地估计了各数据集的相关特征和相应的混合系数的模型参数。请注意,虽然我们没有显示混合模型的参数代表了不相关的特征,采用我们的算法也得到了准确的结果。图1显示了每个混合物成分的估计混合系数。根据这个图,我们可以看到冗余分量在收敛后估计的混合系数接近0。通过去除混合系数非常小的成分(接近0),我们为每个生成的数据集获得正确的组件数。图2显示了每个数据集的所有10个特征的显著特征。正如我们可以从这个数字中看到的,很明显,特征1和2被赋予了高度的相关性(都在90%以上),这与基本真理相匹配。为了进行比较,我们还应用了基于mcm的方法来学习在这四个合成数据集上的无限gd混合模型和特征选择,如[11]中所建议的(如mcm_igd)。

根据我们的结果,所提出的遗传算法能够为mcm_igd估计无限大混合模型的参数提供可比较的结果。然而,如表2所示,igd的计算效率要比mcm_igd高得多。

6.2、人脸检测

在本实验中,着重指出了人脸检测的问题。在我们的案例中,我们使用了三个著名的数据库来测试我们的人脸检测方法的有效性:1)扩展的耶鲁b脸数据库:扩展的耶鲁b脸数据库包含了16128张照片,其中28个人在9个姿势下,以及64种光照条件下的图像[28]。在我们的例子中,我们使用了这个数据库的一个子集,其中包含了8个受试者在不同的姿势和光照条件下的800幅正面脸图像。2)佐治亚理工学院面相数据库:佐治亚理工大学的人脸数据库[50]由50个主体组成,每个主体有15张人脸图像可用。此资料库中的脸部影像包括不同的面部表情、照明条件及鳞片,而每张影像的大小则为640times;480像素。caltech人脸数据库:caltech人脸数据库4包含450幅人脸图像,这些图像是在自然条件下记录的,也就是不同的光照、表达式和复杂的背景。对于非人脸图像,加州理工学院背景数据库5被采纳了。它包含550幅大小的背景图片,它的每个像素为896times;592。图3、4、5和6显示了上述数据库的样本图像。上面提到的每个数据库(人脸和非人脸)都被随机分成两半:一个用于培训,另一个用于测试。值得注意的是,这三个数据库中的人脸图像是前视图,图像是我们在这个实验中的主要焦点。

在本实验中,我们使用了[15]中建议的预处理步骤,将原始图像归一化并裁剪为110times;150像素,以减少背景的影响。图7可查看每个数据库中手工裁剪的人脸图像样本。注意到,裁剪后的图像仍然是人的脸的中心部分。然后,从人脸图像中提取lbp特征。更具体地说,是每一张剪短的脸,图像首先分为小区域,从中提取lbp直方图,然后连接成代表人脸图像的单一特征直方图。我们采用与[57]中相同的实验设置来提取lbp特征:我们在(8)中使用了59-bin lbp算子。2)邻域(意思是半径为2的圆上的8个采样点),并将每个图像(110times;150)分割成18times;21像素区域。因此,每个人脸图像被分成42(6times;7)个区域,然后用lbp直方图表示,长度为2478(59times;42)。在此之后,这些直方图被归一化。然后,我们作为一个分类器执行我们的方法,通过分配测试图像给最有可能生成它的组(人脸或非人脸)来检测人的脸。整个手术重复20次。我们将我们的方法(igd)与三种基于混合的方法进行比较,其中包括:var gd,fgd和lo igd,以及两种非统计的面部表现方法,即lgbphs[64]和mulgbp[31]。对于lgbphs方法,我们使用直方图交集[64]作为两个直方图的相似度测量,来测量两个局部的gabor二进制模式直方图

全文共6392字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13259],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。