英语原文共 6 页
基于融合与扩展LDP和GABOR功能的人脸表情识别
作者:罗元,余超静,张毅,王博宇
重庆邮电大学光电信息传感技术重点实验室,重庆重庆邮电大学信息无障碍与服务机器人工程研究中心
摘要
由于局部方向图(LDP)方法对随机噪声不敏感,因此在纹理提取中得到了广泛的应用。还因为局部方向图(LDP)不能对中心像素进行编码,因此会丢失重要的信息。从而产生一种新的特征方法,提出了一种用于人脸面部特征提的扩展局部方向图(ELDP)描述符。这种特征提取方法是计算了八个方向的边缘响应值和中心像素的灰度值,再将这种均值作为阈值。然后,人脸面部图像使用九个编码值进行编码。并且为了减少冗余信息,获得更有效的信息,使用Gabor滤波器获取多方向Gabor震级图(GMMS),然后使用扩展局部方向图(ELDP)对Gabor震级图(GMMS)进行编码,最后支持将向量机(SVM)应用于人脸面部表情的分类识别,实验结果表明特征尺寸大大减小,面部表情识别率提高。
关键词:面部表情识别、局部方向模式、扩展局部方向图(ELDP)、GABOR小波变换
第1章 绪论
人脸面部表情情绪识别是近年来的一个研究热点,比如在人机交互领域,计算机视觉、人类心理学和情感模拟等领域。从人脸面部图像提取出有效的特征代表信息是任何成功的人脸面部表情识别系统应该必备的要素。人脸面部表情识别系统的识别性能很大程度上受人脸面部表情图像特征提取的影响。人脸面部表情特征的提取方法大致分为两种类型:全局特征提取和局部纹理特征提取。与全局特征提取相比,局部特征提取对光照的变化更为敏感,局部纹理特征提取(LBP)是传统的局部特征提取方法,是对单调的计算有效性和鲁棒性照明变化,但局部纹理特征提取(LBP)运算符可以产生很长的直方图, 因此在区域描述符的情况下,这些运算符很难使用。为了克服这些问题,引入了中心对称局部纹理特征提取(LBP)(CS-LBP),其产生非常小且紧凑的二进制模式。然后提出了基于局部纹理特征(LBP)和泰勒展开的泰勒特征模式(TFP),以从泰勒特征图中获得有效的人脸面部特征。Jabid等人设计了一种更健壮的人脸面部描述符,将其命名为LDP。LDP表示的脸部表现出比局部纹理特征提取(LBP)更好的识别性能。 为了进一步改进LDP算子并获得更好的识别性能,引入了局部方向纹理模式(LDTP)和降维局部方向模式(DR-LDP)。 已经设计了局部方向三元模式,其通过使用方向信息和三元模式有效地编码与情绪相关的特征的信息。然而,上述的改进的方法忽略了中心像素对图像纹理特征的重要性,这影响了识别率。
后来ELDP特征提取方法被提出,这种特征提取方法对中心像素进行编码,增加各种表情的差异进行分类识别。接下来,ELDP和Gabor小波特征变换的融合用于提取面部表情特征,以增强局部特征并提取更详细和有效的纹理信息。实验结果表明,与现有的局部纹理特征提取算法相比,该方法可以大大减少特征维数,提高人脸面部识别率。
第2章 LDP与ELDP
2.1 LDP
LDP运算符计算每个像素位置处的所有八个方向上的边缘响应值,并根据相对强度幅度生成代码。给定图像中的中心像素,八个方向边缘响应值{},i = 0,1,hellip;,7由Kirsch掩模 以八个不同的方向计算,以其所在位置为中心。
响应值在所有方向上都不是同等重要的。拐角或边缘的存在导致在某些特定方向上的高响应值。这里,前k个方向比特响应被设置为1。8位LDP模式的剩余(8-k)位设置为0。当k = 3时,实现最佳识别率。如下图2.1显示了掩码响应和LDP位位置,如下图2.2所示出了k = 3的示例性LDP码。
图2.1 LDP代码
图2.2 K=3的LDP代码
2.2 ELDP
在某些特定情况下,中心像素提供的信息比其邻域更多。虽然LDP特征具有很强的判别力,但LDP忽略了中心像素对图像纹理特征的重要性,这可能导致重要信息的丢失。鉴于上述问题,提出了ELDP算子,其将编码添加到中心像素。
为了对中心像素进行编码,通过使用公式(2.1)获得包括中心像素的3times;3区域的平均值。然后计算出八个方向边缘响应值。再然后,将平均值作为阈值,并将顶部阈值的值设置为1,并将其他(9-k)值设置为0。最后,ELDP代码使用公式(2.2):
(2.1)
(2.2)
其中是边缘响应值,是中心像素的灰度值,m是3times;3区域的平均值。图2.3示出了ELDP代码。使用ELDP算子编码图像的一个像素的过程如图2.4所示。
图2.3 ELDP代码
图2.4 ELDP编码过程
每个像素(x,y)的ELDP码根据原始坐标产生相应的ELDP编码图案。在计算ELDP代码之后,大小为的输入图像I由ELDP直方图HELDP使用公式2.3表示。得到的直方图是该图像的ELDP描述符。
(2.3)
其中r是ELDP代码值,下图2.5展示出了ELDP表达特征提取过程。
图2.5 ELDP表达特征提取过程
虽然ELDP有效地提取了人脸面部于表情特征信息,但其特征提取速度较慢,特征维数较高,高于其他局部纹理特征提取算法。因此,为了解决上述问题,本文进行了以下研究。
第3章 ELDP与GABOR融合提取特征
Gabor滤波器是图像处理社区用于边缘检测的流行线性滤波器。发现Gabor函数可以模拟哺乳动物大脑视觉皮层中的简单细胞。因此,通过设置Gabor滤波器的频率和方向,可以得到具有不同频率和方向的Gabor小波滤波器,可以实现多分辨率和多方向分析。 Gabor滤波器可以用以下公式(3.1)表示:
(3.1)
其中v和u定义Gabor滤波器的方向和比例,z =(x,y),sigma;是高斯函数的标准偏差并确定高斯包络的半径,‖·‖表示范数算子,并且波矢量其中且。 f是频域中滤波器之间的间隔因子,是滤波器组的最大空间频率,n是滤波器组的总数。通过将面部图像与Gabor滤波器进行卷积来导出面部图像的Gabor表示。设为面部图像,其与Gabor滤波器的卷积定义如下(3.2)所示:
(3.2)
其中*表示卷积运算符。v = 0,1,hellip;,4代表尺度,u = 0,1 ,hellip;,7,表示Gabor滤波器的方向。这导致40个不同的滤镜具有不同的比例和方向。然后,使用40个Gabor滤波器中的每一个对图像进行卷积,就可以生成Gabor特征。变换的相位信息是时变的,通常,仅探索其幅度,因此将计算一个幅度值,从而在每个Gabor滤波器的每个像素位置处产生40个响应值。因此,Gabor滤波器的幅度值可用下式(3.3)表示:
(3.3)
Gabor滤波器提取的特征包含大量高维数据和冗余信息。基于这种观察,我们认为将Gabor滤波器与ELDP相结合可以增强局部特征,因此可以从ELDP操作中快速提取更详细的信息。 ELDP运算符以不同的方向和比例对GMM的纹理特征进行编码,表示为:
(3.4)
其中是在ELDP码之后由Gabor滤波器提取的第i个方向特征,G是在用于平均像素值的ELDP码之后由Gabor滤波器提取的特征,并且是在用于中心像素的ELDP码之后由Gabor滤波器提取的特征。
为了减少Gabor图像的数量,并保留原始Gabor图像的多尺度多向局部细节信息。本文利用Gabor滤波器得到了五个尺度和八个方向的Gabor特征,然后叠加了同一方向上不同尺度的Gabor特征,并将八个方向上的Gabor特征图叠加为叠加特征图( SFG),如图3.1所示,因此,在本文中,首先从Gabor滤波器获得SFG,然后使用ELDP算子提取上述8个SFG特征的ELDP特征,并获得每个SFG的ELDP特征直方图。最后,连接所有特征直方图以获得基于ELDP和Gabor的融合特征。
图3.1 SFG
第4章 面部表情图像描述符
我们知道融合特征从整体图中产生。但是人脸面部表达图像丢失了一些位置信息。但对于人脸面部表情图像,某种程度的位置和空间关系表示图像内容更好。因此,遵循与参考文献[13]类似的方法,将直方图修改为扩展直方图,其中表达图像被分成8times;8个子区域。 每个区域的直方图序列被连接起来以描述面部表情的整体信息,因此不仅保留了面部表情图像的整体描述,而且突出了面部细节的变化并减少了特征数据维度,以及扩展的直方图建立如下公式(4.1)所示:
(4.1)
其中,r是ELDP代码值。最后,连接所有子区域分布产生图4.1中所示的特征描述符。
图4.1 使用组合融合特征直方图的面部表情表示
第5章 实验结果和分析
SVM是一种成熟的统计学习理论,已成功应用于计算机视觉中的各种分类任务。因此我们采用SVM对面部表情进行分类。大多数面部表情识别系统试图识别一组原型情绪表达,如愤怒,厌恶,恐惧,快乐,悲伤和惊讶。实验是在日本女性面部表情(JAFFE)和扩展的Cohn-Kanade(CK )数据库上进行的。 JAFFE数据库包含由10名受试者表达的213个女性面部表情图像。 CK 数据库由123个主题和593个图像序列组成。在593个视频序列中,327个序列具有情感标签。所有327个序列都分为以下七种情绪:愤怒,快乐,悲伤,蔑视,恐惧,惊讶和厌恶。图像序列从开始(中性帧)变为峰值(表达帧)。为了关注单个图像的面部表情分析,应该从每个图像序列中挑选出峰值帧作为所使用的面部图像。为了验证所提算法的有效性,使用两只眼睛的位置从原始样本中裁剪所有样本并将其调整为64times;64像素,并将图像划分为8times;8区域。在实验中,JAFFE和CK 数据库的面部表情特征通过基于加权投影的LBP(WPLBP),动态Gabor体积特征(DGVF),多尺度细胞局部强度增加模式(MC-LIIP)提取。时空流形(STM),LDP和提出的方法,分别。最后,SVM用于分类。遵循参考文献[13]中提出的协议,并采用交叉验证策略进行留一法。来自一个受试者的样品用于测试,并且来自剩余受试者的样品每次用于训练。重复上述过程118次,并计算整体精度作为性能。面部表情识别率的实验对比结果如表5.1所示,与WPLBP进行比较,
DGVF,STM,MC-LIIP,LDP和提出的方法。表1显示,CK 数据库的平均识别率为96.57%,比上述算法中识别率最高的WPLBP高出1.07%,且平均识别率为对于JAFFE数据库,提出的方法是91.43%,这是上述算法中最好的识别率。同时,本文提出的方法对CK 数据库进行完整的面部表情识别的平均时间为60.27 ms,这是与其他几种算法相比最短的计算时间。
表5.1 面部表情识别率和不同算法的时间
方法 |
识别率 |
时间/秒 |
|
JAFFE/% |
CK % |
||
WPLBP |
89.41 |
95.50 |
74.68 |
DGVF |
87.20 |
93.60 |
92.35 |
STM |
88.35 |
94.13 |
78.49 |
MC-LIIP |
89.30 |
93.70 |
103.26 |
LDP |
85.40 |
93.40 |
87.79 |
ELDP Gabor |
91.43 |
96.57 |
60.27 |
为了更好地了解各个表达类型的识别准确性,使用CK 数据库进行6级表达识别的混淆矩阵(CM)在表2中给出.可以观察到,愤怒,厌恶,快乐和惊讶可以被高度准确地识别,而恐惧和悲伤的识别率低于其他人,因为他们的面部表情特征不够明显。
表5.2 使用SVM进行6级面部表情识别的CM
表情/% |
生气 |
厌恶 |
害怕 |
开心 |
悲伤 |
惊奇 lt; |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。