英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
计算机视觉和图像理解
摘要:在这项研究中,我们提出了一个利用人脸的解剖结构的方法的新的面部表情识别系统。我们模拟了人脸高多边形线框模型嵌入所有主要肌肉。通过一个半自动的定制过程估计的面部肌肉的影响区域。这些区域被投影到图像平面,以确定特征点。图像帧间各特征点的相对位移被视为肌肉活动的证据。特征点位移投影到三维空间,估计新的在线框的顶点坐标。通过最小二乘算法来求解估计变形的肌肉活动。我们基于力的特点三NB、SVM和AdaBoost分类器展示了肌肉的代表性力量。能够提取出肌肉力量组成的面部表情检测到面部表情的微弱表达,已能够复制表达动画人物与面部表情未知机制的探索。
关键词:面部解剖,肌肉力量,特征,面部动作编码系统
1 介绍
情绪通常是通过面部和身体的手势传达,而不是口头交流。一个明显的感觉,可以通过面部表情展示,通过表达讽刺来强调感觉。Mehrabian [ 1 ]指出一个无可辩驳的例子;可以口头表达仇恨和传递完全相反的感觉。在他后来的作品中又深入了一步,声称一位说话的人传达的感觉或态度是55%人脸,38%是声音,只有7%是口头[ 2 ]。许多形式的非言语行为,如身体接触,距离从听众和姿势影响的信息传达。尽管如此,这是真实的,我们主要凝视的面孔的扬声器来推断出确切的感觉,说出的话。在感知,视觉成分经常占主导地位的听觉成分,即使当听觉信息是明确的,有时会改变我们相信听到的。这一现象的一个有趣的例子是McGurk效应[ 3 ]。它已被证明,在一个发言中观众听到了什么可以影响的显示视频的讲话。在McGurk实验中,口头刺激是如此可观以至于听众相信他们看到的听觉
随着技术的发展,用机器代替人的专业,并建立了人类之间的沟通新渠道,我们被迫放弃自然进化的方式传达我们的情绪,即非语言沟通。非语言交流的缺乏会降低许多实现,例如智能教学系统的性能。它已被证明,增加数量在计算机中的方式,人的交流对学习者的学习经验的看法有一个积极的影响[ 4 ]。社交智能在计算,即解释一个人用户的系统的能力特殊的信号和行为,是一个新兴的领域,有许多用途[5,6]。感兴趣、无聊、困惑和压力的状态识别,可导致人的领域的新的飞跃,计算机间行动。疲劳或注意力不集中检测人类操作员处理关键任务的重要意义。据报道,80%的撞车事故是司机粗心的时候[ 7 ]。在最近的研究中高达95%的准确度判断在检测驾驶员睡意报道大多基于面部行为[ 8,9 ]。
目前的通过基于特征的几何和表观的方法来间就留个整体普遍的人脸表情的面部表情分析的研究。这些基本表达方式是幸福、悲伤、惊奇、恐惧、愤怒和厌恶,正如艾克曼所定义的那样1976 [ 10 ]。外观为基础的方法处理的人脸的纹理,减少其复杂性,并使其适合于与模板比较。选择合适的预处理方法和降维是基于外观的方法的关键。
几何特征是来自于独特的面部区域,如眼睛,鼻孔和嘴。选择的特征点进行跟踪,并与神经网络分类(NNS)[ 11 ],隐藏的马尔可夫模型(HMM)[ 12 ],AdaBoost算法[ 13 ]和许多其他的分类算法。选择正确的集合面部表情描述的几何特征仍然是一个悬而未决的问题。简单的根据高维数据和少量的样本数来选取一个面部头像中的所有像素是不可行的。另一方面,我们需要选择一组最小的基函数,这将涵盖所有可能的面部表情。面部动作编码系统(FACS)提供了一个很好的和直观的设置,这些特征被称为动作单元(AU)[ 14 ]。
动作单元是由人类专家根据心理学实验的基础上得出的。研究表明,使用FACS方法已经产生六个面部基本表情的范围从70%到90%的精确分类器[ 15,17 ]。迄今为止取得的最好成绩远远超过人类的识别上限,估计是在87%[18]至91.7% [ 10 ]。
这些数字是非常有前途的,但大多数的算法不执行成功的新的例子,如看不见的主题的表达。对于这个原因,面部表情重新认知在现实世界的场景中仍然不是一个解决的问题,除了简单的表达式,如微笑。在本文中,我们研究在面部表达当前的方法可能的挫折基因识别,提出了一套新的,有一个对应的面部解剖特点。我们在第2节开始我们的讨论与目前的研究中的面部表情识别,强调在这一领域的主要障碍。在3节中我们将探讨基于FACS方法固有的局限性,如何解决提出了消除这些限制。4节将介绍产生一组表情检测的新特点。我们将在5节中报告我们的结果,并在第6节中得出结论。
2 表情识别研究
人脸表情识别过程通常开始与输入图像中的人脸区域检测。当输入是一个视频,脸或功能在第一帧中检测到跟踪整个帧的其余部分。人脸检测被认为是一个解决问题,为不太杂乱的场景,通过使用小波系数直方图和红外位置[ 19 ]、[ 20 ]和NNS的矩形特征的Adaboost [ 21 ]。由于维度之间数据和数量有限的例子通过逐像素比较检测到的人脸图像是不可行的分类表达。为了降低分类的复杂度,特征提取或定位成为必然。一个直观的方法来识别功能是找到解散独特的区域上的人脸图像如眉毛、眼角、鼻孔和嘴角。这些区域可以使用专门的特征检测器[22,23]检测。Gabor滤波器常用在检测边缘在不同尺度和方向[ 24,25 ]。人脸对齐和注册方法提供全球解决方案的特征检测问题[ 26,31 ]。虽然人脸检测器是显着的人脸特征检测的成功,仍然是一个悬而未决的问题。
当对表情识别系统的输入是一个视频,有可能通过追踪他们来运用暂时的动态特征。追踪可以根据后来框架的相似纹理来完成[32-34]。
人脸表情识别系统的主要重点是分类特征的位移在视频中的进展或从一个定义的模板的中性脸的偏差。支持向量机[35,36 ] 显示为类的非高斯分布模型是有效的。Michel和Kalioby[ 37 ]利用22个特征点的位移来训练一个SVM分类器,实现个人独立的分类准确率72%。littlewort等人[ 13 ]利用AdaBoost选择一个高斯滤波的子集来训练在这个子集和分类的FACS AUs。
基于模型的方法提供了一个替代的定义一个参数变形模型的人脸。主动形状模型(ASM)[ 38 ]是一种统计方法,导出了一个沙的变化模式通过一组训练实例。变换和形状参数估计迭代,以适应所观察到的对象的平均形状。主动外观模型(AAM)[ 39,40 ]结合文本你得到的统计模型。将参数化的模型投影到人脸图像上,并对其进行迭代修正,以更好地适应。结果表明,训练阶段可以加快应用型数值表示的三维特征向量和旋转不变的内核[ 41 ]。马休斯和贝克[ 42 ]提出了一种计算效率高的算法,具有较高的收敛速度,以提高拟合性能。AAM算法也可应用于提高准确度[ 43 ]视频。基于模型的跟踪利用脸上的先验信息,将其形状、方向和特点在一个整体的人脸模型。最早的人脸表情识别研究使用ASM的lanitis等人进行。研究人员报告说,超过74%的精度六种基本情绪和中性对数据集的118个测试图像的自然表达。Ahlberg[ 45 ]和dornaika和davoine [ 46 ]显示跟踪头的朝向和面部特征通过AAM。Sung等人[ 47 ]结合AAM的机智有一个全局运动参数的初始估计的气缸头模型,实现显着提高跟踪率。Huang等人[ 48 ]成立时间滤波器在AAM覆盖大部分POS人脸跟踪中的偏差和快速运动。她和基姆[ 49 ]利用微分AAM特征和流形学习的六个基本的情绪分类和识别性能报告86.5%。形状,外观和基于模型的功能,可以利用提取的元数据这更表现为表情。FACS以元数据一步46个预先定义行动单元来表达。虽然它最初不是用于表达式自动分类,但是FACS提供了一种最常用的功能集在文献[ 50–54 ]中。
FACS AUs 在众多的研究中已经被证实具有高分辨能力的特点。Sebe等人[ 17 ]定义的运动单元,类似于AUs但具有自然连续性。他们获得了六个基本表情的93%的精确区分度。在本文中,我们研究的混合二维外观和三维模型中提取的面部肌肉力量的方法,所提出的新的特点。我们使用一个自定义的非迭代方法计算效率高,一种通用的人脸模型,在第一帧的视频上的人脸图像。顶点的自定义人脸模型,下降的肌肉区域的影响,预计到人脸图像。这些项目最初认为是基于后续视频框架的表面可追踪的特征点。我们将皮肤模型作为一个弹性系统,并在一个线性的、超定的方程组中求解肌肉力量
3 动机
FACS定义了根据表情心理学的研究定义了46个AU。每个AU被定义为关于情感表达的头,眼睛或者面部活动的动作,FACS覆盖的主要面部肌肉活动包括脸上部的9个AU,脸下部的18个AU以及5个未分类的5个AU。由于FACS代码的基本是人类情感的感知,而不是人脸的解剖结构,一个AU可能指的是一个肌肉群的混合实际效力或者一个独特的肌肉。众所周知,获得FACS的最小能力需要大约300小时的训练,一个FACS检测器可以评分一个1分钟的视频大约用两个小时的时间。
FAUS AUs 让他们在自动识别人脸表情上有各方面的困难,我们将在下面的的段落列举他们的障碍。
3.1很难识别微弱的面部活动
FACS定义了为紧密的面部活动定义了一个不连续与不统一的规模。在图1中有表达。大范围的活动是C和的中的评分。由于这个得分框架,微弱的面部变化的识别信息可能被忽略掉。
在实施过程中定义一个连续的肌肉规模多多少少的直接解决这个限制
3.2 在复合表达式中很难识别单个动作单元
最自然的表情是由澳大利亚复合作用产生的。面部表情的研究发现,来自[ 58 ]超过7000种可能的组合。它已经断言由田等L. [ 59 ],澳大利亚的复合效应可非添加剂,改变成分来自个人表现。如图2所示,对1和AU4复合效应是额头重点内提高,通过悲伤或恐惧的情绪。澳大利亚1的复合作用,2和4是突出眉毛筹集和可能对应的焦虑情绪。曾经是复合而成的,它是前极难分解的一种表达回澳除非大规则库提供。
3.3 可能有未知的情绪机制
对单个动作单元的分解,不仅很难,而且也可能不是唯一的。考虑在图2中的1 2表示。对1对化合物的影响表达几乎察觉不到,但内心的额肌活动。肌肉活动的许多不同的组合可能会导致在特定功能相同的矢量位移点,确定为同澳大利亚的活动。这是特别有效的嘴角,这是多个肌肉的插入点。换句话说,观察到的位移非常特征点的有限集合不一定意味着一套独特的澳大利亚。在识别表达式指出积极生产观察表情的肌肉重要,省略那些与皮肤一起移动的人。在本文中,我们提出了识别的面部肌肉的激活水平的进展中的表达,通过观察的位移的多个功能点,分布在一个区域。显然实际力量由面部肌肉的应用是观察不到的除非电活动传感器如肌电图(EMG)的利用。霍然而,它是可能得到他们面对的一个精确的模型,皮肤和肌肉的物理特性,和精心挑选的特征点的实测位移。有AP大约46的肌肉在识别人脸的皮肤。肌肉是纤维结构,只能收缩,产生拉力的附着的皮肤。肌肉的附着性皮肤不是一个单一的点,而是一个区域。这是该地区的影响,肌肉力量分布在不同强度。虽然人的面孔有很大的不同个人之间和种族,人类面部的解剖定义了一种肌肉的拓扑结构,对所有人类都是一样的。给定一组面部的地标,如眼睛和唇角,这是可以估计曲在皮肤下面的肌肉布局准确。面部肌肉的布局为我们提供了一个估计的力量在皮肤上的每个肌肉的分布。每一点的位移健为我们提供了一个证据,激活水平的肌肉,影响该地区。我们建议模型的力和位移之间的依赖关系作为一个线性系统,我们可以得到一个确定线性方程组。我们可以利用凸优化方法求解该系统,并确定肌肉的激活水平。定义面部表情的活动潜在的面部肌肉解决一切3限制FACS的方法:(1)每块肌肉的激活水平确定在一个连续的尺度和精度会随着数量的增加正跟踪的特征点。(2)通过分散的特征点数量足够在脸上表,我们可以找出所有组成肌肉的活化水平,君子对肌肉活动的数量不管怎么样。(3)最重要的是,利用肌肉的活动作为一种行为测量的知识,我们可以探索新的情感机制,这将有三行为科学研究的巨大意义。
4 肌肉力量为基础的功能
我们提出了一个呈现面部肌肉活动级别的新特征。我们的特征提取系统的输入是图3中第一个框架的被标记的面部标志的面部表情视频。我们假设脸是中立的并导向视频中的第一个框架。这个框架被用来做解剖精确度的半自动定制以及目标的无线框架类模型。这个系统的输出是每个面部肌肉的活动级别的集合。这这个章节中,我们将说明这个特征提取系统的每个阶段,开始与我们实验中用到的无线框架类模型。
4.1 有线框架类模型
我们通过观察和面部剖析额先验知识来估计面部肌肉的活动级别。类似的,一个高分辨率的有效性和中精确无线框架模型在我们的实验中是很重要的。一个知名的无线框架模型包含75个头顶和100个三角表面.这个模型的修改版本以及多层模型被在这些文献中所提及到。Sifakis等人建立了一个高细节的人脸模型并嵌入了32个肌肉,3万个头骨层中的三角形脸以及85万个皮肤层的多边形。这个模型通过为了分析和整合面部表情的MRI扫描来建立的。
我们为我们的实验选取了一个中性的高细节的有线框架模型。我们的模型包含612个头顶和1128张人脸。它也通过头骨的一副和头顶的插入来定义了18个人脸的主要肌肉。这些点使我们放置肌肉和定义一个对象的肌肉力量的朝向。肌肉的结构在图4中说明。
我们给肌肉力量定义了两个衰退系数:基于角度偏差的衰退角度以及基于向量长度的半径衰退。角度衰退系数通过方程式(1)计算
我们定义半径
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[152163],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。