Look at Boundary: A Boundary-Aware Face Alignment Algorithm
Abstract
We present a novel boundary-aware face alignment algorithm by utilising boundary lines as the geometric structure of a human face to help facial landmark localisation. Unlike the conventional heatmap based method and regression based method, our approach derives face landmarks from boundary lines which remove the ambiguities in the landmark definition. Three questions are explored and answered by this work: 1. Why using boundary? 2. How to use boundary? 3. What is the relationship between boundary estimation and landmarks localisation? Our boundary-aware face alignment algorithm achieves 3.49% mean error on 300-W Fullset, which outperforms state-of-the-art methods by a large margin. Our method can also easily integrate information from other datasets. By utilising boundary in-formation of 300-W dataset, our method achieves 3.92% mean error with 0.39% failure rate on COFW dataset, and 1.25% mean error on AFLW-Full dataset. Moreover, we propose a new dataset WFLW to unify training and testing across different factors, including poses, expressions, illu-minations, makeups, occlusions, and blurriness.
1. Introduction
Face alignment, which refers to facial landmark detection in this work, serves as a key step for many face applications, e.g., face recognition [75], face verifification [48, 49]and face frontalisation [21]. The objective of this paper is to devise an effective face alignment algorithm to handle faces with unconstrained pose variation and occlusion across multiple datasets and annotation protocols.
Figure 1: The fifirst column shows the face images from different datasets with different number of landmarks. The second column illustrates the universally defifined facial boundaries estimated by our methods. With the help of boundary information, our approach achieves high accuracy localisation results cross multiple datasets and annotation protocols, as shown in the third column.
Different to face detection [45] and recognition [75],face alignment identififies geometry structure of human face which can be viewed as modeling highly structured output. Each facial landmark is strongly associated with a welldefifined facial boundary, e.g., eyelid and nose bridge.However, compared to boundaries, facial landmarks are not so welldefifined. Facial landmarks other than corners can hardly remain the same semantical locations with large pose variation and occlusion. Besides, different annotation schemes of existing datasets lead to a different number of landmarks [28, 5, 66, 30] (19/29/68/194 points) and annotation scheme of future face alignment datasets can hardly be determined. We believe the reasoning of a unique facial structure is the key to localise facial landmarks since human face does not include ambiguities.
To this end, we use welldefifined facial boundaries to represent the geometric structure of the human face. It is easier to identify facial boundaries comparing to facial landmarks under large pose and occlusion. In this work, we represent facial structure using 13 boundary lines. Each facial boundary line can be interpolated from a suffificient number of facial landmarks across multiple datasets, which will not suffer from inconsistency of the annotation schemes.Our boundary-aware face alignment algorithm contains two stages.
We fifirst estimate facial boundary heatmaps and then regress landmarks with the help of boundary heatmaps. As noticed in Fig. 1, facial landmarks of different annotation schemes can be derived from boundary heatmaps with the same defifinition. To explore the relationship between facial boundaries and landmarks, we introduce adversarial learning ideas by using a landmark-based boundary effectiveness discriminator. Experiments have shown that the better quality estimated boundaries have, the more accurate landmarks will be. The boundary heatmap estimator,landmark regressor, and boundary effectiveness discriminator can be jointly learned in an end-to-end manner.
We used stacked hourglass structure [35] to estimate facial boundary heatmap and model the structure between facial boundaries through message passing [11, 63] to increase its robustness to occlusion. After generating facial boundary heatmaps, the next step is deriving facial landmarks using boundaries. The boundary heatmaps serve as structure cue to guide feature learning for the landmark regressor. We observe that a model guided by ground truth boundary heatmaps can achieve 76.26% AUC on 300W [39] test while the state-of-the-art method [15] can only achieve 54.85%. This suggests the richness of information contained in boundary heatmaps. To fully utilise the structure information, we apply boundary heatmaps at multiple stages in the landmark regression network. Our experiment shows that the more stages boundary heatmaps are used in feature learning, the better landmark prediction results we will get.
We evaluate the proposed method on three popular face alignment benchmarks including 300W [39], COFW [5], and AFLW [28]. Our approach signifificantly outperforms previous state-of-the-art methods by a large margin. 3.49% mean error on 300-W Fullset, 3.92% mean error with 0.39% failure rate on COFW and 1.25% mean error on AFLWFull dataset respectively. To unify the evaluation, we propose a new large dataset named Wider Facial Landmarks in-the-wild (WFLW) which contain 10, 000 images. Our new dataset introduces large pose, expression, and occlusion variance. Each image is annotated with 98 landmarks and 6 attributes. Comprehensive ablation study demonstrates the effectiveness of each componen.
2. Related Work
In the literature of face alignment, besides classic methods (ASMs [34,23], AAMs[13,41,33,25],CLMs[29,42]and Cascaded Regression Models [7,5,58,8,72,73,18]), recently, state-of-the-art
剩余内容已隐藏,支付完成后下载完整资料
看边界:边界感知面部对齐算
摘要
我们通过利用边界线作为人脸的几何结构来提出一种新颖的边界感知人脸对齐算法,以帮助进行面部地标定位。与传统的基于热图的方法和基于回归的方法不同,我们的方法从边界线导出面部地标,这消除了界标定义中的模糊性。这项工作探讨并回答了三个问题:1。为什么要使用边界?2.如何使用边界?3.边界估计与地标定位之间有什么关系?我们的边界感知面部对齐算法在300 W全集上实现了3.49%的平均误差,其优于大多数最先进的方法。我们的方法还可以轻松地整合来自其他数据集的信息。利用300W数据集的边界信息,我们的方法实现了3.92%的平均误差,COFW数据集的失效率为0.39%,AFLW-Full数据集的平均误差为1.25%。此外,我们提出了一个新的数据集WFLW,以统一不同因素的训练和测试,包括姿势,表情,照明,化妆,遮挡和模糊。
1. 介绍
面部对齐,其指的是在该工作中的面部地标检测,作为许多面部应用(例如,面部识别)的关键步骤[75], 面子验证[48,49] 面对正面化[21]. 本文的目的是设计一种有效的面部对齐算法来处理具有无约束的姿势变化和跨多个数据集和注释协议的遮挡的面部。
30OW(68分)
COFW(29分)
AFLW(19分)
(a) (b) (c)
图1:第一列显示来自具有不同地标数的不同数据集的面部图像。第二列说明我们的方法估计的普遍定义的面部边界。借助边界信息,我们的方法可以在多个数据集和注释协议中实现高精度的本地化结果,如第三列所示。
与面部检测不同[45]和认可[75], 面部对齐识别人脸的几何结构,可以将其视为高度结构化输出的建模。每个面部界标与明确定义的面部边界强烈相关,例如,眼睑和鼻梁。然而,与边界相比,面部地标的定义并不明确。除角落之外的面部地标几乎不能保持具有大的姿势变化和遮挡的相同语义位置。此外,现有数据集的不同注释方案导致不同数量的地标[28,5,66,30](19/29/68/194点)和未来面部对齐数据集的注释方案很难确定。我们相信独特面部的推理结构是定位面部地标的关键,因为人脸不包含歧义。
为此,我们使用明确定义的面部边界来表示人脸的几何结构。与大姿势和遮挡下的面部标志相比,更容易识别面部边界。在这项工作中,我们使用13条边界线来表示面部结构。可以从跨多个数据集的足够数量的面部界标内插每个面部边界线,这不会受到注释方案的不一致性的影响。
我们的边界感知面部对齐算法包含两个阶段。我们首先估计面部边界热图,然后在边界热图的帮助下回归地标。如图1所示。不同注释方案的面部地标可以从具有相同定义的边界热图导出。为了探索面部边界和地标之间的关系,我们通过使用基于地标的边界效应鉴别器来介绍对抗性学习思想。实验表明,估计边界质量越好,地标越精确。边界热图估计器,界标回归器和边界有效性鉴别器可以以端到端的方式联合学习。
我们使用堆叠沙漏结构[35] 通过消息传递估计面部边界热图并模拟面部边界之间的结构[11,63] 增加其对遮挡的稳健性。在生成面部边界热图后,下一步是使用边界导出面部地标。边界热图用作指导地标回归量的特征学习的结构线索。我们观察到由地面实况边界热图引导的模型在300W时可以达到76.26%的AUC[39] 测试,同时采用最先进的方法[15] 只能达到54.85%。这表明边界热图中包含的信息丰富。为了充分利用结构信息,我们在地标回归网络的多个阶段应用边界热图。我们的实验表明,在特征学习中使用了更多的阶段边界热图,我们将获得更好的地标预测结果。
我们在三个流行的面部对齐基准测试(包括300W)上评估所提出的方法[39], COFW[5],和AFLW[28]。我们的方法大大优于以前最先进的方法。300-W Fullset的平均误差为3.49%,COFW的平均误差为3.92%,失效率为0.39%,AFLW-Full数据集的平均误差为1.25%。为了统一评估,我们提出了一个名为 Wider Facial Landmarks in-the-wild(WFLW)的新大型数据集,其中包含10,000个图像。我们的新数据集引入了大的姿势,表达和遮挡方差。每个图像都注98个地标和6个属性。综合消融研究证明了每个组成部分的有效性。
2. 相关工作
在面部对齐的文献中,除了经典方法(ASMs)[34, 23],AAMs[13,41,33,25], CLMs[29,42] 和级联回归模型[7,5,58,8,72,73,18]), 最近,使用深度卷积神经网络(DC-NN)实现了最先进的性能。这些方法主要分为两类,即坐标回归模型和热图回归模型。
坐标回归模型直接学习从输入图像到地标坐标向量的映射。张等人。[70] 将问题构建为多任务学习问题,学习地标坐标和预测面部属性同时。MDM[51] 是从粗到精的面对齐的第一个端到端递归卷积系统。TSR[31] 将面分成几个部分以减轻零件的变化并分别回归不同零件的坐标。即使坐标回归模型具有显着推断地标坐标而无需任何后处理的优点。然而,它们的表现不如热图回归模型。
热图回归模型分别为每个地标生成可能性热图,最近在面部对齐中实现了最先进的性能。凯尔[4] 是一个两阶段卷积聚合用于聚合由检测阶段预测的得分图以及用于最终热图回归的早期CNN特征的模型。杨等人。[60] 使用两部分网络,即监督转换来规范化面部和堆叠沙漏网络[35]获得预测热图。最近,JMFA[15] 通过利用堆叠沙漏网络实现最先进的精度[35] 用于多视图面部对齐,并且比上一次Menpo挑战赛的最佳三个参赛作品更好[66].
由于边界检测被认为是计算机视觉中最基本的问题之一,并且出现了大量材料[56,52,44,65,43]. 已经证明它在视觉任务中作为分割是有效的[32,27,22] 和对象检测[36,50,37]. 在面部对齐中,边界信息表现出特别的重要性,因为几乎所有的地标都被定义在面部边界上。然而,据我们所知,在面部对齐任务中,之前没有任何工作从明确的角度研究边界信息的使用。
人体姿态估计的最新进展部分激发了我们的边界热图估计方法。堆叠沙漏网络[35] 通过自下而上的自上而下设计实现引人注目的准确性,从而赋予网络获取多尺度信息的能力。消息传递[11,63] 在人体关节的结构建模中表现出了巨大的力量。最近,对抗性学习[9,10] 采用进一步提高重度咬合下估计人体姿势的准确性。
图2:我们的边界感知面对齐框架概述。(a)基于沙漏网络的边界热图估计器用于估计边界热图。引入消息传递层以处理遮挡。(b)边界感知地标回归量用于产生地标的最终预测。引入边界热图融合方案,将边界信息纳入回归量的特征学习中。(c)区分“真实”边界热图与“假”的边界有效性鉴别器用于进一步改善估计的边界热图的质量。
3. 边界感知面部对齐
如在介绍中所提到的,地标难以呈现面部图像的精确和通用的几何结构。我们提出面部边界作为几何结构表示,并最终帮助地标回归问题。边界是详细且定义明确的结构描述,它们在头部姿势和数据集之间是一致的。它们也与地标密切相关,因为大多数地标都位于边界线上。其他选择也可用于几何结构表示。最近的作品[31,47,19] 采用了面部护理来辅助面部对齐任务。然而,面部部分太粗糙,因此没有边界线那么强大。
另一种选择是面对解析结果。面部解析导致不相交的面部组件,其需要每个组件的边界形成闭环。然而,一些面部器官如鼻子自然地混合到整个面部中,因此不准确被定义为单独的部分。相反,边界线不是形成闭环的必要条件,其在表示几何结构方面更灵活。第二节的实验4.2 已经表明边界线是帮助地标坐标回归的最佳选择。
我们提出的Boundary-Aware Face Alignment框架的详细配置如图2所示。它由三个密切相关的组成部分组成:边界感知地标回归,边界热图估计和基于地标的边界效应辨别。边界感知地标回归器以多阶段方式合并边界信息以预测地标坐标。Boundary Heatmap Estimator生成边界热图作为面几何结构。由于边界信息被大量使用,边界热图的质量对于最终的地标回归至关重要。我们介绍对抗性学习的想法[20]通过提出基于地标的边界效力Discriminator,与Boundary Heatmap Estimator配对。该鉴别器可以进一步改善边界热图的质量并且导致更好的地标坐标预测。
3.1. 边界意识到的地标回归
为了将边界线融合到特学习中,我们将地标转换为边界热图以帮助学习特征。边界热图中每个像素的响应由其到相应边界线的距离决定。如图3所示。边界热图的细节定义如下。给定一个人脸图像I,用标志表示其地面实况注释为。K个子集被定义为分别表示属边界的界标,例如左上眼睑和鼻梁。对于每个边界,插入以获得密集边界线。然后,通过仅将边界线上的点设置为1,其他为0,形成与I大小相同的二进制边界图。最后,基于每个执行距离变换以获得距离地图。我们使用具有标准偏差的高斯表达式将距离图变换为地面真实边界热图。用于阈值以使边界热图更多地聚焦在边界区域上。实际上,为了计算效率,地面实况边界热图侧的长度被设置为I的大小的四分之一。
(1)
为了充分利用边界热图中包含的丰富信息,我们提出了一种多阶段边界热图融合方案。如图2所示。采用四级res-18网络作为我们的基线网络。边界热图融合在网络的输入和每个阶段进行。第二节综合结果4.2
图3:地面实况热图生成过程的图示。每行代表一个特定面部边界的过程,即面部外轮廓,左眉毛,右眉毛,鼻梁,鼻子边界,左/右上/下眼睑和上/下唇的上/下侧。
图4:特征映射融合方案的图示。边界线索和输入要素图融合在一起,通过使用沙漏模块获得精致的特征。
已经证明,我们对基线网络的融合越多,我们就能获得更好的性能。输入图像融合。为了将边界热图与输入图像融合,融合输入被定义为:
(2)
其中表示逐元素点积运算表示通道顺序串联。
上述设计使得融合输入仅关注细节纹理围绕边界。因此忽略了大多数背景和无纹理的面部区域,这极大地增强了输入的有效性。原始输入也连接到融合输入,以将其他有价值的信息保留在原始图像中。特征图融合。与上面类似,为了将边界热图M与特征图F融合,融合特征图H被定义为:
(3)
由于的通道数等于预定边界的数量,这是恒定的。转换函数是转换以使其具有与相同的通道所必需的。我们选择沙漏结构子网作为以保持特征地
大小。对称地执行下采样和上采样。跳过连接。
图5:消息传递和对抗性学习的有效性的说明。随着消息传递和对抗性学习的增加,估计边界的质量得到了很好的改善,变得越来越合理和集中。
用于组合多尺度信息。然后一个信号模糊层将输出范围标准化为[0,1]。另一个简单的选择是连续卷积层,步幅等于1,覆盖相对局部区域。第二节的实验4.2 已经证明了沙漏结构的优越性。特征映射融合子网的细节如图4所示。由于边界热图在地标中被大量使用坐标回归。边界热图的质量对预测准确性至关重要。通过融合地面真实边界热图,我们的方法可以达到76.26%与现有技术的结果相比,AUC在300 W测试中54.85%.基于此实验,在以下几个为了提高生成边界热图的质量,将引入几种方法。消融研究中的实验还显示了一致的性能增益和更好的热图质量。
3.2. 边界热图估算器
继之前的面部对齐工作[15,60] 和人类的姿势[35,12,62], 我们使用堆叠沙漏作为边界热图估算器的基线。生成的和地面真实边界热图之间的均方误差(MSE)得到优化。但是,如图5所示。当发生严重遮挡时,产生的热图总是会受到噪声和多模响应的影响,这也已在下文中提到过[9,12].
为了减轻由遮挡引起的问题,我们引入了消息传递层来在边界之间传递信息。该过程在图6中可视化。在遮挡期间,可见边界可以根据面部结构为遮挡边界提供帮助。在每个堆栈的末尾使用层内消息传递来在不同的边界热图之间传递信息。因此,信息可以从可见边界传递到被遮挡的边界。此外,由于不同的沙漏堆栈集中在面部信息的不同方面。采用层间消息传递将消息从较低堆栈传递到较高堆栈,以在堆叠更多沙漏子网时保持边界热图的质量。
我们实现了以下消息传递[11]。在该实现中,每个堆栈末尾的特征映射需要被划分为K个分支,其中K是数字。
图6:消息传递方案的图示。双向树结构用于层内消息传递。层间消息在相邻堆栈之间从低到高传递。边界,每个代表一种边界特征图。与地标热图相比,此要求展示了我们的边界热图的优势[15,60] 对于它们的小而恒定数K.因此,消息传递的计算和参数成本边界内的层很小,但不实用消息传递在68或甚至194个地标。
3.3. 边界效力鉴别器
在结构化边界热图估计器中,均方误差(MSE)用作损失函数。然而,最小化MSE有时会使预测变得模糊和难以置信。这种回归到均值的问题是超分辨率文献中众所周知的事实[40]。当生成坏的边界热图时,它会破坏回归网络的学习。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[609946],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。