英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
面向多视角及局部遮挡的人脸对齐
概述
在不同视角及可能严重的遮挡情况下,我们提供了一种鲁棒性模型来定位人脸特征点。为了在大量的视角差异下于脸部外观及形状间建立可靠的关系,我们建议将脸部对齐作为一个l1诱导阶段关系词典(SRD)研究问题。在每一个训练阶段,这个SRD模型都会分析一个关系词典来建立脸部外观及形状之间的一致关系,而这两者又分别是由姿态索引图像特征及当前估计界标的形状位移建模的。在测试中,SRD模型会为正在测试的脸部自动选择一个最为关联的形状位移的稀疏集合,并且使用它们来迭代定义其形状。为了在有遮挡的情况下定位脸部界标,我们建议进一步研究遮挡词典来对不同种局部脸部遮挡来建立模型。通过将遮挡词典布署成为SRD模型,可以进一步改善有遮挡脸部的对齐表现。我们的算法简单、高效、易于实现。基于两个基准数据库的大量实验及两个新建立的数据库已经证明其优越性能远超目前最先进的方法,特别是在有大量视角差异及遮挡的情况下。
1.介绍
人脸对齐,定位一张面部图像的面部特征点,是一个重要的计算机视觉课题,并且对于其他许多应用来说也是必不可少的,例如面部识别、面部合成以及3D脸型建模。尽管已经投入了许多努力在解决课题上,过去的数十年间也确实有许多重要进步,然而脸部对齐仍然遗留了非常具有挑战性的课题,特别是当面部图片来源于不同视角,甚至或遭受了严重的遮挡情况。
解决人脸对齐问题的传统方法使用参数化模型来描述脸部外观和形状。主动形状模型(ASM)通过对手动标记的训练样本进行主成分分析,并且使用研究的脸部形状在测试图像中迭代地拟合脸部实例来表示脸部形状。主动外观模型使用外观模型,并且通过最小化结构残余估量面部形状,从而进一步地修复整个面部。AAM的方法与ASM一并为解决人脸对齐问题提供了一个通用框架。然而,接下来的研究已经发现,由于涉及基于梯度下降的优化,经典的AAM方法在计算上是昂贵的并且对初始化敏感。
为了解决这些问题,有两种主要的模型来改善传统的ASM和AAM框架。第一种是基于部件模型。这些模型通过最大化给定图像的部分位置的后验概率来执行面部对齐,然后将由全局形状模型强制的所有部分的概率融合在一起,例如增强的ASM或图像结构,以产生最终结果。与试图直接逼近原始图像像素的AAM不同,受约束的局部模型采用扩展的外观模型来生成部件的特征模板,从而获得改进的鲁棒性和准确性。
另一种模型是基于回归的人脸对齐方法,直接学习从图像外观到人脸形状的映射函数。这些方法的区别主要在于所采用的学习算法(如boosting,随机森林或非线性最小二乘方)和所采用的特征(如Haar小波,随机蕨算法或SIFT算法)。姿态索引特征,通过每当新的人脸特征点估计被更新时重新计算特征而获得,被证明对于研究鲁棒性对准模型是重要的。此外,利用人脸检测器提供的初始形状,从姿态索引特征到人脸特征点位移的映射提供了一种自然而有效的方式来将估计的人脸特征点反复更新,直至确定真实位置。
由于映射函数通常是非线性的,因此对它们进行训练需要很多带注释的样本,并且通常需要花费数小时的时间来学习复杂的映射关系。这主要是由于在多视图人脸中表现出复杂的外观-形状关系。对于严重遮挡的人脸,情况变得更糟,因为大多数现有的人脸对准算法没有明确地模拟遮挡。尽管一些算法被认为对于遮挡是鲁棒性的,但是如何建立遮挡模型及其为什么起作用的基本机制尚未明确。因此,如果一个人脸对齐模型能够同时固有地或者明确地处理人脸视图变化和遮挡问题,那么提高对齐性能将是非常有用的。
为了获得这样一个多视角和部分遮挡的人脸对齐模型,我们提出了一个l1诱导阶段关系字典(SRD)模型,以研究人脸外观和形状之间一致和连贯的关系。SRD模型在每个训练阶段共同学习两个关系词典,一个是使用特征点位移的脸形,一个是使用姿态索引特征的物体外观。学习后的字典在外观上自动捕捉不同模式的脸部形状和相关模式,从而直接表征来自不同视图的脸部,再形成多视图脸部模型。形状和外观之间的关系自然地嵌入到关系词典中,并且可以得到相当高的效率。对于测试人脸图像,SRD模型通过稀疏表示迭代地从字典中选择一小部分相关外观模式,然后预测形状朝着真实脸型的位移。
为了在遮挡情况下进行鲁棒性人脸对齐,我们进一步建议研究学习遮挡字典,其元素形成不同的基本遮挡模式,并且它们的稀疏组合模拟不同种类的遮挡。通过改进的联合学习方法将遮挡词典部署到原始的SRD模型中,其鲁棒性进一步提高,特别是对于有遮挡的人脸。我们进行了广泛的实验,以评估和分析提出的SRD模型在不同的实验设置和几个基准数据集的脸部对齐。结果证明了所提出算法的当下最先进算法的性能,特别是在多视角和部分遮挡的人脸对准任务上。
2.分段关系词典学习
脸部对齐本质上是一个外观形状的建模过程。主要挑战之一来自大面积视图变化,这导致非常复杂的外观形状关系。为了学习多视角人脸的健壮面貌和形状模型,并捕捉一致的外观形状关系,我们提出将人脸对齐作为一个l1诱导关系词典研究问题,并开发一个阶段性的优化过程来学习多个关系词典。
2.1.模型制定
将拥有N个训练样本的训练集表示为,其中每个样本(xi,pi)包含一个人脸图像xi和标记的地标位置pi。一个脸部对齐模型M需要通过将X抽象成紧凑表示来捕获面部外观和形状之间的关系,例如一个模型参数的集合。这可以通过最小化训练集上的损失函数来实现。大致来说,损失函数可以表示为,其中和分别表示一个训练样本的面貌和形状特征。损失函数衡量它们之间的不兼容性。注意,这里的脸部外观a不一定是脸部图像x,更具表现力的图像特征可以用来表示脸部的外观。随着损失函数,学习模型相当于解决。
(1)
因此,损失函数的定义对最终的人脸对齐模型具有根本性的影响。以前的方法或者仅仅基于人脸的外观或者人脸形状。
对于多视角人脸对齐,由于脸部外观和形状都呈现出巨大的变化,所以外观形状关系变得非常复杂。因此,它要求损失函数不仅要指导学习过程自动寻找脸部外观和形状的可靠模式,还要确保学习模型能够捕捉一致的脸部形状-外观关系。为此,我们建议将损失函数定义为:
(2)
作为公式(1)中的一个实例,是用于同时表示脸部形状和外观的字典,和m是字典的规模。基础形状-外观关系通过共享相同的表示系数c而被强制保持一致。请注意,c鼓励稀疏(由lambda;控制)。稀疏性确保了一个面部外观形状的实例只能由字典中的几个元素来表示。稀疏的假设已经被证明对许多视觉问题非常有效。在我们的问题中,这种稀疏正则化对模型训练和测试都有好处。对于模型训练,由于字典只能使用少数元素来表示一个样本,因此它将被迫学习不同的形状外观模式,以便很好地表示具有不同形状和外观的所有样本。 对于模型测试来说,由于测试人脸只使用几种模式来表示,因此提供了一种机制来自动选择与测试人脸最相关的模式,从而生成更健壮和更准确的估计。
在实际应用中,通常使用约束D的使得l2-norms少于或是和1相当以避免只造成不足以计的解决。因此D的约束集表示为:
(3)
现在,通过训练集X来最小化公式(2)中的损失函数,这个字典模型可通过以下公式研究:
(4)
2.2.模型研究
在学习方程式(4)之前,我们就如何表现人脸的形状和外观提供了一些讨论。对于人脸形状,由于在测试过程中特征点是不可访问的,所以我们不能直接使用特征点位置作为训练中的形状特征,而是使用真正的特征点和估计的特征点之间的位移,例如人脸检测器提供的位置。对于脸部外观,我们可以使用姿态索引特征来构建健全的呈现。因此,原来的训练集可以转化为可以直接用于学习模型的新训练集。形式上,这个新训练集可以表示为,其中,。在这里,代表被限制的特征点位置,而作为姿态索引特征提取功能。
使用新的训练集,问题的局部最小解决方案在公式(4)可以使用广泛使用的两步优化过程获得:在第一步中,D是固定的,以最小化相对于c的损失函数;并且在第二步中,c被固定为执行梯度下降法,以使与D相关的损失函数最小化。然而,这样获得的字典与模型的测试设置不兼容,因为在测试中我们只能从字典D的外观部分获得表示系数。为了适应模型的测试设置,我们提出阶段性关联的字典学习过程来研究模型。
在数学上,公式中的损失函数(2)可以等同写成:
(5)
在这里,我们将最初的字典D分为两个部分,即:分别和形状和外观词典有关的和。
请注意,这两个字典是相互关联的,它们的基本关系是由系数c控制的,这确保了两个字典能够一致地表示一个人脸形状的外观实例。我们将这两个字典一起称为关系字典。有了这个替代,公式(4)中的问题变为:
使得其满足(6)
为了适应模型测试设置,我们提出了一个四步迭代过程来解决上述问题:在步骤1中,我们修复Da来学习Ds和c; 在步骤2中,我们使用Ds和c来更新Da; 在步骤3中,我们修复Ds并学习Da和c,并且在步骤4中我们使用Da和c来更新Ds。在算法1的3-10行中总结了这四个步骤,其中使用批量训练模式来加速收敛。
这个优化过程的基本过程隐藏在迭代中的开始步骤(即步骤1和步骤2)和退出步骤(即步骤3和步骤4)之后。在步骤1中,为了从多视角人脸形状中捕捉不同的模式,首先学习人脸形状词典,然后在步骤2中用于初始化人脸外观词典。在步骤4中,由于我们无法访问人脸形状,在测试过程中,只能从人脸外观字典中获取表示系数。因此,更新面部形状字典的系数仅在步骤3中从面部外观字典更新。与[2,14,21]中的两步优化过程一样,所提出的四步优化过程也可能找不到公式中问题的全局最优解(4),但它可以保证模型测试的兼容设置,从而产生一个更有效的模型。
2.3.逐步优化
用训练集中的四步优化过程表示已学习的关系词典模型,我们可以使用这个关系词典来更新训练集中初始估计的脸形和外观。例如,给定第i个训练样本,我们首先用学习的外观字典来稀疏地初始表示,即:
(7)
然后,第i个训练样本的估计脸部形状可以通过由表示系数所表示的学习形状位移的线性组合来更新:
(8)
基于更新的人脸形状,我们可以继续从原始训练集重建一个新的训练集,通过从更新的人脸特征点中提取训练样本的姿态索引特征,即。然后,我们可以再次使用这个新的训练集学习一个新的关系字典。 这个过程可以重复,直到重建数据集合收敛。 最终模型将包含在不同阶段训练的多个关系字典,即,我们称之为阶段关系字典(SRD)模型,即。在算法1中,我们总结了SRD模型的完整学习过程。 在我们所有的实验中,重建的训练集只在2或3个阶段快速收敛。
给定一个测试图像,我们首先根据人脸检测结果估计出特征点的初始形状,并提取姿态索引特征以形成估计特征点周围的初始人脸外观。然后我们使用学习的SRD模型迭代地更新估计的面部形状并重新提取姿态索引的特征来构建脸部外观。 该过程与训练模型期间的人脸形状和外观更新过程完全相同,这将引导更新后的人脸形状和外观朝向测试图像中的真实值。
算法1 SRD模型学习
输入:训练集,其中m是字典规模,(正则化参数),T(最大阶段数)
输出:学习完成的SRD模型M
- 初始化:随机初始化M中的参数
- 当t满足时,执行:从X中建立训练集,其中;
- 当没有收敛时,执行:
(1)在Xt上调整以学习和C:
(2)用和C更新:
(3)在Xt上调整以学习和C:
(4)用和C来更新:直至更新:,并在X中从获取。
(5)当生成学习完成SRD模型时结束以上过程
3.有遮挡的SRD研究
第2节中提出的SRD模型通过同时进行外形造型可以自然处理面部视图变化。为了处理面部遮挡,我们还提出通过在有理字典内联合学习遮挡字典来模拟遮挡,它使SRD能够明确地模拟遮挡。
在稀疏表示中建模遮挡最流行的方法,是在学习的字典中添加一个单位矩阵[26,16]。单位矩阵解释了仅仅由研究的字典不能很好地表示的被遮挡的图像像素。然而,这种遮挡建模方法对于高维单位矩阵而言在计算上非常昂贵。例如,当为一个特征点采用100维外观特征时,解释100个特征点遮挡的单位矩阵的维数将为10,000times;10,000。这个极高的维度阻止了SRD模型中的l1最小化过程用于面部对齐。
图1:元素遮挡模式的定义(EOPs)和部分遮挡模式(POPs) (a)为68个特征点定义的一组16个EOP,以平均面形绘制。(b)通过结合几种EOPs的三种不同的POPs。
为了有效和高效地解决遮挡问题,我们建议学习更紧凑和代表性的遮挡词典。在我们的SRD模型中,遮挡字典可以添加到外观字典中,并因此添加到公式(5)中的损失函数中成为:
(9)
其中表示具有k列的遮挡词典,是Do的表示系数,并且D = [Ds; Da,,Do]。我们将这种遮挡处理SR
全文共10632字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14801],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。