英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料
基于局部傅立叶系数和面部傅立叶描述子的人脸表情识别
摘要:近年来手机等社交媒体的大众传播,蓬勃发展,促进了更多办法来识别人脸表情。因此,现在人类面部表情很多都是通过数字设备进行识别的。然而,这个过程必须在图像光照变化和部分遮挡的前提下完成。因此,在本文中,我们提出了一个基于局部傅立叶系数和面部傅立叶描述子的完全自动化的FER系统。用于描述眼睛,眉毛、鼻子和嘴等方面的特定面部区域的外观与几何特征,等等基于傅立叶变换的属性。因此,我们要克服研究中产生的一些FER问题,如照明变化,部分遮挡,图像旋转,冗余和降维等。为了达到我们的目标,进行了一些测试,我们为了这项研究,使用三个标准数据库:分别对CK 、MUG和TFEID进行了评估。此外,评估结果表明,每个数据库的平均识别率比本文提到的案例调查得到的识别率要求更高。
关键词:识别,傅立叶系数,傅立叶描述子,人脸面部图像分割,局部遮挡
正文:
一.引言
面部表情是由面部肌肉运动决定的,代表特定的人类情绪。心理学家把人的情感,通过面部表情建立为六种基本表情,普遍认可的表达方式,另一方面,人们正在进行的计算机视觉和机器学习的研究,试图找到一种合适的方法来编码定义人类情感的面部表情。因此,可以实现复杂的人机交互(HCI)。形式上,自动面部表情识别(FER)是负责从视觉(即空间或时空)分析和识别面部特征变化的领域。现在,FER系统的一些应用包括医疗保健、客户满意度分析、虚拟现实技术、智能环境、视频会议、人类情感分析,认知科学。 FER系统可以归类为空间或时空领域。空间表示处理静态图像,其中仅使用一帧的信息来识别所示表达式。然而,时空方法考虑了一组连续图像用于识别过程即包含在一系列帧中的信息。FER系统的另一分类可以基于特征的定义,定义为外观或几何。外观特征代表部的皮肤纹理及其变化(皱纹和折痕),同时几何特征代表面部的形状,通过使用不同的面部部位的特定特征点。已经成功地应用于基于外观的特征提取的一些技术是Gabor、LDA、LBP和最近的卷积神经网络。另一方面,应用于几何特征的方法是和基准点的直线距离。值得注意的是,调查论文提到,结合外观和几何特征的方法达到更高的精度性能,本文提出了一个完全自动化的在FER系统的基础上,并且结合局部傅立叶系数(外观特征)和面部傅立叶描述符(几何特征)的独立特定的面部区域(眼睛眉毛,鼻子和嘴)。通过对每个人脸区域的识别,在频域上执行独立的子空间,我们可以处理常见的FER问题,例如光照变化、部分遮挡、图像旋转、冗余和降维。三个广泛使用的数据集:扩展的Cohn Kanade数据库、多媒体理解组(MUG)数据库和台湾面部表情图像数据库(TFEID)。 我们可以用这三个数据库在使用svm的时候进行评估。
本文与参考文献中提到的的工作密切相关。我们通过对类似作品的深入研究,作为比较结果,对前人的工作进行了拓展。实现了一个完全自动化的基准点检测和区域分割,更详细并且更容易,描述了和表现面部表情。我们可以使用全尺寸数据集进行完整的评价,通过获得理想点的数目和子块大小,具有较高的识别率这一特性。面部区域的组合用于局部遮挡问题的研究。
综上所述,本文的主要贡献在于:基于局部傅立叶系数,提出了一种基于外观和几何特征的全自动FER系统。研究基于不同大小子块的局部傅立叶系数。研究具有不同数目的基准点,用来面部识别的傅立叶描述子。与面对局部遮挡问题的最先进的方法的比较结果。在三个不同的数据集上广泛的FER实验证明了所提出的系统的效率高于一些以前的作品。本文的其余部分整理如下:在第2节中介绍相关作品的评论。在第3节中说明了FER系统的总体框架,其次是数据集的描述和第4节中的评估协议。第5节给出了实验结果,最后在第6节中得出结论和并分析今后的工作。
二.相关的工作
我们前面已经提出了几个研究将外观和几何特征与FER结合的好处。作者应用MS,分别用前额、眼睛、眉毛、鼻子和嘴巴四个分量区域独立地对两种方法进行分类。外观和形状信号的组合决策层,这意味着多类支持向量机必须应用两次之前的最终决策。由于它必须调整和训练两个不同的分类器,该提议提出了几个计算复杂度的问题, 因此,它对于实时应用来说是低效的。然而,在决策层的融合允许从一种特征获得独立结果的可能性。另一方面,提出了特征提取层的特征组合。他们从三个面部特征获得了最终的特征向量:特征点距离比(几何)、连接角比(几何)和皮肤变形能量(外观)。值得注意的是,这些特征是通过以中性帧作为基准获得的。因此,这两个图像(中性和表达性)是需要的过程。皮肤变形能量是由眉毛之间的一个小区域计算的,我们可以用AAM获得的基准点提出基于LBP(外观)和29个特定局部区域的归一化中心矩(几何)的FER系统。与之前的方案一样,对于特征提取,该方法通过引入基准点来定义局部区域。因此,如果存在与地标检测相关的问题,则会对外观特征产生比较大的影响。换言之,外观特征的可行性取决于几何特征的是否能很好提取。总之,为了开发基于外观和几何特征的融合的稳定的FER系统,必须考虑两个问题:计算系统复杂性和每个特征提取方法的紧密性。
三.系统框架
包括人脸检测、人脸表情图像分割、特征提取和分类四个步骤。第一步是由众所周知的Viola Jones算法执行的人脸检测。随后,为了减少维数和突出一些感兴趣区域,我们在特定面部区域分割面部(面部区域分割)。因此,眼睛的眉毛、鼻子和嘴巴的局部区域是根据眼睛特征距离的关系来分割的。同一区域的几何特征的基准点,提出的方法进行估计。随后,特征向量提取是基于局部傅立叶系数(LFC)和面部傅立叶描述符(FFD)的组合,其中每个脸部区域表示基于PCA(主成分分析)的独立子空间。在这个步骤中 对所有面部区域的特征向量进行拼接。最终的特征向量表示为表达差异和中性信息的线性差异。最后,通过SVM算法进行分类步骤。支持向量机训练的特征向量从外观和几何特征的组合。值得注意的是,即使在三个面部区域参与特征提取过程时,我们的建议仅使用一个分类器,因此计算复杂度仍然很低。此外,由于这两种特征的面部区域分割仅依赖于人脸检测,所以可以认为特征提取过程对于两者都是独立的。
3.1.人脸检测和区域分割如前所述,人脸检测是通过Viola Jones算法实现的。因此,我们得到一个大小为2 N的检测人脸区域(定义为DFR),脸部的眼睛位置可以分别定义为左、右眼的LR EE;然后,为了分割面部区域的外观特征,我们使用眼睛之间的距离,实验发现三个特定的面部区域之间的关系。例如,将O作为平面DFR的原点因此,每个面部区域的左上顶点定义如下: 其中,眼睛NOS MOP PPP分别代表眼睛眉毛、鼻子和嘴区域的初始位置。最后,每个面部区域的大小被定义为存在,眼睛NOS MOA AAA各自的区域,眼睛NOS眸FR FR FR面部区域。为了获得每个人脸图像的基准点,我们应用了在中提出的工作,其中利用一个线性回归函数的级联来训练可变形的人脸跟踪模型。该过程包括在第一帧中检测脸部,然后通过使用前一帧的拟合结果作为初始化来识别每个连续帧上的面部标志。该方法获得51个面部标志,用于描述眼睛眉毛、鼻子和嘴唇的形状。这种方法已经被测试在受控环境下工作以及“在野外”场景。
3.2特征提取
首先是利用傅立叶变换,我们已经进行几次脸部识别(FR)和FER中提出的方法融合了FR的三个不同的傅立叶特征域,另一方面,分别针对FR和FER提出了FFT局部应用于非重叠子块的相位谱。此外,一种称为LPQ(局部相位量化)的方法定义了局部区域以获得LPQ模式的局部直方图(通常采用7times;7像素的区域),类似于LBP过程,但是LPQ不使用像素强度,LPQ使用每个邻域的相位。然而,这些方法只使用外观特征。相反,这项工作提出了局部傅立叶系数(LFC)和面部傅立叶描述符(FFD)的组合。特征提取过程分为三个步骤:外观特征提取、几何特征提取和特征向量估计。该过程独立地应用于每个面部区域和每种类型的特征。因此,如果需要的话,它可以并行运行。采用基于二维DFT的LFC进行外观特征提取。这个过程包括将输入图像分割成若干个子块以局部提取傅立叶系数。例如,二维DFT定义为:为了方便起见,FR代表三个面部区域中的任何一个,它们必须被划分成大小LLtimes;的子块。然后,通过修改FR.,因为最小子块大小,复傅立叶系数的虚分量等于零,因此,这种分析仅集中在傅立叶变换的相位分量上。因此,对LFC的真实分量的理想子块大小进行了分析。其中LFC具有与FR相同的维数。综上所述, LFC矩阵表的每个子块局部获得的频率特征的真实分量。随后,应用PCA的变化,以减少维度和与训练图像集相关的局部信息。为此,将LFC矩阵转换为列向量,其次,训练集的LFC向量必须被连接起来,形成矩阵矢其中P是训练用图像的总数,然后根据相应的特征值将这些特征向量按后继顺序存储。协方差矩阵的分类特征向量确定了与当前面部区域相关的子空间LFC,是与第二最大特征值相关的特征向量,H是用于进一步投影的特征向量的数目。值得注意的是,该过程被应用以保持训练矢量的方差的90%。最后,通过LFC是面部区域子空间,LFC是所有训练图像的平均矢量。另一方面,几何特征提取过程基于使用傅立叶描述符表示面部区域形状的傅立叶描述符,其必须与LFC的过程类似地投影到当前面部区域子空间中。分别计算出外观和几何特征的特征向量。融合开始于两个特征向量的级联,使得基于三个特定脸部区域的特征向量被定义其中Y表示C单个面部区域的级联。值得注意的是,C可以等于2或3,这取决于在特征提取过程中涉及到多少面部区域。
3.3.支持向量机分类
支持向量机(SVM)是一种以其泛化能力著称的有效分类器。因此,在本文中,使用径向基函数(RBF)核的多类支持向量机,以分类六个基本的面部表情。图书馆LIbVM被用来实现这一任务。SVM必须应用于两种不同的模式:训练和测试。因此,应该将一组特征向量引入分类器作为训练图像。因此,通过最大化超平面余量,支持向量机获得六个模板,这些模板与愤怒、厌恶、恐惧、幸福、悲伤和惊奇的面部表情相关联。在测试模式之后,在大纲中,支持向量机将测试特征向量与所有模板进行比较,以决定它属于哪个类。重要的是,这个决定与前一阶段得到的面部区域组合非常相关。
四.数据集
评估协议的一个子集的扩展数据库可以被用来分析子块大小和面部标志的数量(分别为LFC和FFD)。它包括90个不同主题的表情和中性面孔。为了避免由于数据集对结果的误解,通过选择每个基本面部表情(40幅图像)的相同数量的表达图像来选择该子集。因此,从CK 的可用序列中选择了240个峰值表达帧和90个中性帧(来自每个主题)。使用CK 数据库的完整版本、多媒体理解组(MUG)数据库和台湾面部表情图像数据库(TFEID)对全自动系统进行评估。表1示出了每个数据集的每个表达式的受试者和帧的数目,其中362个表达帧包括CK 、304个MUG和229个TFID。值得注意的是,对于CK 数据集,通过选择两个表达框架,增加了来自恐惧悲伤表情的图像的数量。每个数据集的图像和主题的数目。从每个序列(不仅峰值帧)。因此,这些表达式的原始数分别为25和28。该系统是在FER中广泛使用的协议进行评估的,这是离开一个主题(LoSo)交叉验证。该方法包括根据对象的数量来划分数据库,例如每个子组仅由来自同一主题的图像组成。然后,这些子组中的一个必须被挑选出来进行测试,其余的用于训练。此过程必须重复与数据库中受试者的数量相同的次数。最后,在所有试验中对识别精度进行平均计算。
五.实验结果
将实验结果分为四个主要测试环节:分析LFC的子块大小,使用CK 子集测试不同大小的子块;分析FFD的地标数目,其中几何特征被定义为不同的数目。使用与前一个测试相同的子集;LFC FFD与所有数据集的结果,该测试使用CK 、MUG和TFEID给出了本文的主要提案的结果;并且与以前的方法的比较显示了使用SA的不同方法的性能。
5.1分析了LFC中的子块大小
提出了子块大小的若干变化,以找到LFC的理想子块大小。基于在中给出的分析,本征相位算法的理想子块大小是最小可能窗口(即2times;2像素)。然而,本征相采用相位谱代替傅立叶系数,如我们提出的LFC。表示面部区域分割成四个和三个相等大小的部分(水平和垂直可能性)。最后,对没有局部分割的整个输入人脸区域(L=M·N)进行了测试。应用于口面部区域的所描述的非正方形窗口的子块区域分割的示例。下面的分析给出了当方程中的八个不同大小的L用于特征向量计算时的LFC的性能。八个不同的子块大小的结果如图4所示。值得注意的是,这些是使用CK 的子集获得的,CK 的每一个基本表达式具有相同数量的图像,并且评价性能如第4节所述。从该图中,我们可以很容易地看出,在特征提取过程中使用所有面部区域的组合获得最佳识别性能。此外,如在中所示,当子块的大小减小时,平均识别率增加。因此,最好的结果是通过使用L=2表示最小平方窗仅2times;2像素。最后,我们可以得出结论,当子块大小等于2times;2像素时,达到LFC的最佳性能。
5.2分析FFD
选择多个标准点来定义脸部形状的基准点是基于几何特征的每个FER系统的一个重要问题。该测试包括通过改变方程式中使用的地标数目来分析基于不同形状表示的FER性能。重要的是,对于这个特定的测试,地标估计是手动注释的CK 子集的所有图像。八种形状表示之间的主要区别在于每个面部区域的面部标记和位置。 FFD的八K值的结果如图所示。这张照片显示了眼睛眉毛、鼻子嘴唇以及它们的组合。正如预期的那样,我们可以看到,当地标数目增加时,结果改善,因此K=123呈现FFD的最佳性能。然而,对某些试验的改进并不显著。例如, 当所有区域都用于特征提取(全部)时,K=51和K=123的平均识别率分别为93.8%和95.9%,仅为2%的改进。此外,即使当鼻子区域表现出显著的精度提高时,当所有区域都用于特征提取时,这也没有反映出来。因此,我们决定使用由〔21〕提供的地标数目,其方便地是k=51。最后,用CK 子集进行的最后一次测试是LFC的比较
全文共8407字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14474],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。