英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
面部表情中动作单元的检测,跟踪和分类
概述:
目前关于自动化面部表情分析的大部分工作都试图识别一小部分表情表达,例如喜悦和恐惧。然而,这种表情表达很少发生,而人类的情感和意图通过一个或两个离散特征的变化更频繁地传达。要捕捉全方位的面部表情,需要检测,跟踪和分类面部特征的细粒度变化。我们开发了第一个版本一种对面部细微变化敏感的计算机视觉系统。该系统包括三个模块来提取功能信息:使用小波运动模型的密集流提取,面部特征跟踪,边缘和线条提取。提取的特征信息被馈送到判别分类器或隐马尔可夫模型,将其分类为FACS动作单位,用于编码面部表情细微变化的描述性系统。该系统在图像序列上对来自100个不同种族的男女主体进行了测试。手动FACS编码的协议对于基于结果的要求很强密集流提取,面部特征跟踪以及边缘和线条提取。
- 简介:
大多数基于计算机视觉的面部护理方法 表达分析到目前为止只识别一小部分表情表达式情绪(即快乐,惊讶,愤怒,悲伤,恐惧和厌恶。这一重点来自达尔文以及最近的埃克曼和伊扎德等人的工作,他们提出基本情绪有相应的原面部表情。这些表达通常涉及面部的同时变化脸部多个区域的特征。然而,生活中,这种原型表达的发生相对较少。相反,情感是通过改变一个或两个离散特征联系的,例如在愤怒时收紧嘴唇,悲伤中的唇角。单独表情功能的变化,特别是在眉毛或眼睑区域,是典型的副语言表现。例如,提高眉毛。捕捉人类情感和副语言交流的微妙变化,自动识别面部细粒度的变化是必要的表达。
面部动作编码系统(FACS)是一个基于人类观察者的系统,旨在检测面部特征的细微变化。观看录像慢动作的面部行为,训练有素的观察者可以手动FACS编码所有可能的面部显示,这被称为行动单位(AU)。现在已观察到7000多个动作单元组合。虽然埃克曼和弗里森提出了这一点FACS动作单元的特定组合代表情感的原型表达,是注意到情绪表达不是FACS的一部分;它们在不同的系统中编码,例如EMFACS或AFFEX。FACS本身纯粹是描述性的,不使用情感或其他理论标签,并且提供必要的基本事实来描述面部表情。
已经证明的几种图像分析技术有助于用于识别原型表达识别面部动作单元。一种技术通过计算连续帧之间的图像强度差异来提取运动信息图像序列。巴特利特等人显示了运动信息以及差异图像编码足以识别眉毛和眼睛区域中的动作单元。这种技术的一个潜在问题是它没有成功捕获人脸图像之间的像素对应关系;不同的面部动作可能产生相同的强度差异的模式。
为获得更精确的运动信息,可以通过计算光流,其表示运动的方向和幅度。马斯,爱莎和喷特兰观察到眉毛和脸颊区域的流量增加与某些AU有关,但是没有测试流动对单元识别的特异性,从光流中识别表达式。保持在原型表达的水平而不是比FACS AU更精细,更客观的水平。巴莱特等人的研究是一个例外。从眉毛中的光流中识别出动作单元和眼睛区域。本研究使用了专家识别和表现的图像数据FACS AU,手动显示图像序列在分析之前对时间扭曲和强度进行分级。
另一种技术从中提取边缘和线条用于检测皱纹和皱纹的面部图像。使用化妆的人工增强,沃特斯提取的轮廓包括眉毛,眼睑,鼻唇沟和嘴唇,但是这些结果对行动单位识别的特异性没有经过测试。
还留有一个问题是这些技术是否有对面部显示的微妙差异具有足够和一致的敏感性。如上所述,强度差异图像不能表示像素强度的变化的方向和幅度。预期光流方法能克服这个问题,但流量估计倾向于多噪音。为减少测量误差,先前工作通常汇总流量忽略低于指定的小变化阈值[3],两者都倾向于降低灵敏度小动作。边缘和线路探测器尤其如此易受噪音影响。它们编码线路和路径以及这些特征的瞬间变化,这对面对表达分析更为重要。检测,跟踪和分类面部细微变化表达式,收敛方法,利用多种类型的特征信息,可以提供更多准确的结果。
我们开发并实现了第一个版本面部图像分析系统,使用会聚特征提取模块自动编码输入将图像序列面向FACS AU。我们的重点研究是为了比较相对表现
每个模块。确保充分的训练和测试数据,我们分析了100个不同种族背景的男性和女性受试者的AU。我们也比较了两种不同方法的相对表现(判别分析和隐马尔可夫模型)。以保证每个特征提取模块和分类方法对FACS AU表现出不同程度的高灵敏度和一致性。
- 人脸图片分析系统
我们的目标是识别FACS AU面部表情的最小可见辨别变化。在本研究中,我们关注AU 15,其出现在上表面和下表面中这在情感和副语言中很常见。例如,AU4是特征负面情绪和心理努力,以及AU1 2是一个惊喜的组成部分。选择的AU相对难以区分,因为它们涉及外观上的微妙差异:眉毛皱紧至AU1 4与AU4相比,由于AU6导致眼睛变窄与AU7相比,是三个独立的动作单元组合涉及AU17,由于AU12而扩口与AU20相比。
输入图像序列对齐后(参见第2.1节),三个模块提取特征信息。密集流提取使用小波运动模型跟踪整个脸部图像的流动。面部特征跟踪跟踪一小组预先选定的功能并且计算密集度低于密集光流。通过比较这些的表现两个运动特征提取模块,我们可以测试运动信息是否局限于眉毛,眼睛,和嘴唇足以进行AU识别[7,8]。如第三个特征提取模块,高梯度组件检测使用水平组合,垂直,对角线和边缘特征检测器检测以及跟踪标准和瞬态的变化面部线条和皱纹。
这三个模块中的每一个的输出都馈送到判别分类器或隐马尔可夫模型HMM。判别分析是否是经典的模式识别中经过充分验证的方法。该HMM在时空域中表现良好已证明面部识别的有效性和语音识别。本研究比较了这些方法的相对优势特征提取和AU识别,对比测试对于高效率的发展和强大的人脸图像分析系统至关重要
2.1 图像对齐
脸上的表情变化经常伴随着头部运动。人们惊讶地抬起头或开始微笑时转向朋友。表情也可能因面部比例的个体差异而变化。图3的a行示出了包括刚性运动(头部位置的移动)的实际输入图像序列的示例和方向)和非刚性运动(面部表情)。婴儿主体将头转向右侧当他微笑(AU12)时,他抬起头来他的嘴(AU25然后是AU26),收缩眼轮匝肌(AU6),抬起脸颊并缩小眼睛的开口,抬起眉毛。在行b,每个图像是图像之间的差异在它的正上方和第一行中的第一个图像。白色区域表示明显的运动,这显然是一个刚性(头部运动)和非刚性运动的混合表情。完全消除头部运动的影响从输入图像序列将是非常困难的,它甚至可能需要复杂的转换,取决于对确切形状的了解个人的面孔。然而,当头部的平面外旋转很小时,图像的仿射或透视变换可以对齐图像,以便
面部位置,大小和方向保持相对不同受试者之间的一致性,这些因素不会显着干扰特征提取。仿射转换在计算上更快,但透视转换提供更准确的翘曲,能够用于更高程度的平面外旋转。
透视变换是关联刚性平面对象的两个视图的变换。数学上,如果图像j(x)和图像j(x0 )是平面物体的两个视图然后是两个坐标系统公式:
其中参数m0-m7表示标准参数。
c示出了获得的结果图像通过透视转换原始图像a。请注意,拍摄对象的头部会翘曲到原来的方向。行d显示强度第一帧与行c中的每个后续变换图像之间的差异。行b和d之间的比较表明了转换后由于面部表情(眉毛抬起,眼睛变窄,脸颊抬起和嘴唇),图像保持运动,虽然刚性运动大多被消除了。
2.2。密集流提取
在FACS中,每个AU在解剖学上与特定面部肌肉的收缩相关。例如,AU12(倾斜抬高唇角)的结果来自于颧骨主要肌肉的收缩,AU20(唇部伸展)来自匍匐肌的收缩,和AU15(倾斜降低唇角)降压肌肉的收缩。这种肌肉收缩在上覆的皮肤中产生运动,光流可以检测幅度和方向。吴等人开发了一种方法使用从粗到细的Cai-Wang计算密集流量小波表示。小波运动模型通过线性组合表示运动矢量分层基函数。基础函数直接将任何函数转换为小波系数从粗到细。这有所不同从小波变换的传统用法来看,从细到粗进行分解然后从粗到细重建。以蔡 - 小波为主密集的流动对小运动敏感并且稳定一个光滑的纹理区域。计算是相对的慢。在SGI-Irix工作站上,每个帧对需要大约20分钟的处理时间帧由640times;490像素组成。
密集流提取产生(u,v)矢量场对于每一帧;如果图像大小是ntimes;m,我们可以将流场视为两个ntimes;m维通过连接所有水平和垂直的矢量以及单独的运动矢量。减少数量维度,我们执行主要组件分析(PCA),然后将每个矢量场投影到组件轴。因为AU在鞋帮和下面是相对独立的,我们执行此操作在每个区域的密集流动上单独处理。顶端定义上面的区域包括眶下皱纹,是110times;240像素。在这个区域内,前10个主要组成部分对于水平流动和垂直流动的前10个主要组成部分占90%以上密集流动的变化。将上面矢量场投影到这些主分量轴上在两个10维向量中,我们将它们连接起来形成20维特征向量,以表示每帧中上表面区域中的流动。在下表面,前15个水平和15个垂直主要成分占90%以上密集流动的变化。与上面相似通过将矢量场投影到这些主分量轴上,我们获得了每帧中下面区域的30维特征向量。
2.3。面部特征跟踪
不仅为整个脸部获得密集的流动图像计算密集,而且也有功能像PCA系数代表聚合属性面部运动。它可能更有利或适合计算小的运动特征,例如一组局部的面部特征。以前的工作表明眉毛,眼睛和嘴唇的动作就足够了为了许多AU的认可。我们选择了这些面部特征区域的点数:六个点左右眉毛的轮廓,眼睛周围的八个,14在鼻子周围,10口左右。在第一个框架,这些点是手动标记的。对照两位运营商的特征点标记显示手动标记中的平均观察者间错误在水平和垂直方向上是2.29和2.01像素尺寸,分别。 Pearson相关性观察者间的可靠性分别为0.97和0.93。自动标记初始框架中的要素已在最近的工作中部分实施。自动跟踪要素的移动。 Lucas-Kanade算法是一个标准在位移时,以子像素精度有效地估计特征点运动的技术小。在帧It(x,y)中给出ntimes;n特征区域R.在序列中,位移矢量d =(dx,dy)在下一帧中,通过最小化获得It 1(x,y)剩余E(d)
Lucas-Kanade算法给出d =(dx,dy)as 的解决方案
算法中使用的区域大小为13times;13。虽然该算法的最初想法假定为小位移,当与迭代结合时图像金字塔,快速和大的位移最多100个像素(例如突然张开嘴巴)可以在保持的同时平稳地跟踪对细微(亚像素)面部运动的敏感性。在300 MHz Pentium II计算机上,跟踪38个功能需要每帧约1秒,这是处理时间的显着改进在密集流动提取。
图5示出了面部特征跟踪的示例。受试者的脸部从中性(AU0)变为眉毛抬起(AU1 2),眼睛扩大(AU5)和下颌下垂(AU26),这两者都是惊喜的特征。从特征尾随的线段表示图像序列期间的特征轨迹。
当连接时,跟踪点的位移形成特征向量。在分析中眉部区域,测量值包括六个特征点的水平和垂直位移眉毛周围(每个上部轮廓上有三个)。在眼睛区域的分析中,测量值包括周围八个特征点的水平和垂直位移眼睛。在嘴部区域的分析中,测量值包括嘴周围的10个特征点的水平和垂直位移由于鼻孔两侧,鼻孔两侧有四个后者与AU9的行动有关。因此,每个测量由2p维向量通过连接p特征位移(其中p = 32)即
2.4 高梯度成分分析
面部运动产生垂直于活化肌肉运动方向的瞬间皱纹和皱纹。这些瞬态特征提供与AU的识别相关的信息。例如,瓦楞肌肉在眉毛之间产生垂直皱纹,其编码为AU4,同时收缩内侧部分额肌(AU1)导致额头中央水平起皱。其中一些随着年龄的增长,犁沟可能永久存在。永久性的外侧角落皱纹眼睛,这是AU6在短暂时的特征,在成人中很常见,但在婴儿中却不常见。当线条和沟槽成为永久性面部特征时,相应肌肉的收缩会使其外观发生变化,例如加深或延长。
为了检测这些功能,我们应用了渐变滤镜(几个导数)在几个面部区域中的不同方向。图6显示了3times;5水平和使用5times;3垂直滤波器和5times;5对角滤波器。用于前额和鼻唇沟区域。同样的,5times;5对角滤波器用于区域鼻唇沟和3times;3过滤器用于小沟嘴唇和下巴周围。在应用这些梯度滤波器之前,使用5times;5高斯滤波器来平滑图像数据。在300 MHz Pentium PC上,处理时间约为每秒4帧。
由瞬态皮肤或特征变形产生的高梯度组件需要分开。从个人的永久性特征面对。为此,从当前帧中减去当前帧的梯度滤波器的输出。
高梯度分量检测的结果通过以下方式变为特征向量方法。前额和下脸区域
归一化的人脸图像分为16个块。计算每个块的梯度滤波器输出的均值和协方差值。对于上下表情识别,这些将均值和方差值连接起来形成一个每帧的32维向量
3. AU识别
从图像中提取特征的结果由三个模块组成的面部表情序列现在由特征向量序列表示。我们想要将每个序列分类为预定AU中的一个。我们使用判别分析和HMM作为决策机制。分类面部特征跟踪数据,我们使用判别分析和HMM。对于密集流量的数据以及来自高梯度成分检测的数据,我们只使用HMM。对于两种判别分析和HMM,数据分为培训和测试集。
3.1。通过判别分析进行分类
特征向量的判别分析计算现象不同并获得的尺寸预测班级成员资格的分类函数。在当前的研究中我们使用了判别分析仅限面部特征跟踪。AU之间的区别是通过计算和比较后验概率来完成的。行动单位Auk,给出测量D.
假设每个p(D | AUi)是多变量的高斯分布N(mu;i,Sigma;i),其中均值
估计mu;i和协方差矩阵Sigma;i通过训练数据的样本均值和样本协方差矩阵。在高斯假设下,该判别函数是二次的一般判别函数;但如果协方差矩阵Sigma;i和Sigma;j相等,则减小线性判别函数。由于我们,假设先验概率p(AUi)是相等的。希望将我们的结果推广到其他样本中其中行动单位的相对频率一致。
全文共6804字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[2521]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。