找到您的相貌:测量人脸相似性而不是人脸身份外文翻译资料

 2022-08-09 09:42:59

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


找到您的相貌:测量人脸相似性而不是人脸身份

摘要

人脸图像是计算机视觉的主要关注领域之一,可以处理各种各样的任务。虽然人脸识别可能是最广泛的研究内容,但许多其他的任务,如亲属关系检测,面部表情分类和面部老化已被研究。在这项工作中,我们提出了一种新的主​​观任务,即量化一对面孔之间的感知面孔相似度。也就是说,假设面部图像不是同一个人,我们可以预测面部图像之间的感知相似性。尽管此任务显然与人脸识别相关,但它是不同的,因此有必要进行单独的研究。人们经常说,两个人看起来很像,即使实际上并没有将他们彼此混淆。另外,由于人脸相似度与传统图像相似度不同,在数据收集和标记以及处理人与人之间的主观意见分歧等方面存在挑战。我们提出的证据表明,寻找面部表情和识别面部表情是两个不同的任务。我们提出了一个新的面部相似性数据集,并引入了针对相似面部分类的Lookalike网络,该网络优于针对相同任务的人脸识别网络。

第1节 引言

您是否曾经看过演员,以为他们看起来和您认识的人相似?尽管您显然不会将两者当作同一个人而混淆,但是可能有些特征可能会使您想起某个人。您可能能够描述这些人为何长相相似的属性,或者相似性甚至无法命名。尽管您内心的“人脸识别算法”了解到这两个人是不同的,但仍有一些东西将它们标记为相似。

通过训练执行细粒度实例识别的面部识别器,可以将面部相似性的概念捕获为自然的副作用吗?最近的人脸识别算法都是以类作为身份进行训练的,没有任何东西可以明确地捕捉到某些人看起来更像其他人的想法。如图1所示,这些算法中的大多数是通过学习嵌入空间来训练的,在该嵌入空间中,同一人的图像被鼓励靠近,而不同人的图像则处于远处,而不考虑它们看起来有多相似。也就是说,只要不同的人的图像“足够远”,就不会根据感知到的面孔相似性在嵌入空间中安排面孔。

除了人脸识别和人脸相似性如何关联这一有趣的问题外,还有一些明显的应用,相似网络更适合于这些应用。例如,通过向用户展示与自己相似的人,诸如Microsoft的CelebsLike.Me网站或Google的Arts&Culture App之类的应用程序已变得流行。另外,这种类型的网络非常适合电影演员选择看起来与现实生活中的人相似的演员。

图一 大多数人脸识别算法将人脸嵌入到空间中,以使同一人的不同图像很近,而不同人的脸却很远。该目标与面部的感知相似性无关。在这项工作中,我们学习了一个相似的网络,该网络将人脸映射到一个嵌入空间,其中不同人的人脸图像之间的距离取决于与人类观察者的感知相似度。

利用这种直觉,我们提出了我们认为是研究面部相似度作为独立任务的第一篇论文。首先,我们通过收集检查面部相似度和面部识别之间关系的数据集来证明这种直觉是正确的。然后,我们介绍类似的网络,该网络学习专门用于此任务的嵌入空间。最后,我们给出的结果表明,我们的lookalike网络成功地学习了如何测量人脸相似度,并且还能够推广到其他数据集。

第2节 之前的工作

尽管我们提出了学习面部相似性的新任务,但我们的工作与一些经过深入研究的不同课题高度相关。首先,由于我们处理的是人脸图像,因此我们的工作与人脸识别任务高度相关。但是,随着我们从按类别身份转移到排名方法,我们的工作也与图像相似性和度量学习密切相关。在本节中,我们将介绍在这些领域中的前期工作。

2.1 人脸识别

人脸识别是计算机视觉中研究最广泛的主题之一。解决该问题的第一篇论文之一发表于1966年[4],尽管这项工作需要人工测量面部(例如眼角,鼻子顶部等的位置)。但这项早期工作已经揭示了针对面部识别的一些后期挑战,例如姿势和表情不变性。

随着这一领域的发展,开始直接从图像像素中提取特征。一些研究使用像素本身的降维技术进行分类。一些示例包括特征脸[24],渔脸[2]和拉普拉斯脸[11]。其他研究则根据在其他领域中使用的图片描述了更高级的功能。示例包括使用SIFT [13],定向梯度直方图[6]和局部二进制模式[1]。

近年来,在几乎所有计算机视觉子问题中都使用了深度神经网络。使用这些网络的主要优点之一是,不再需要手动设计特性,而使网络可以学习特定任务的适当特性。卷积网络在人脸识别方面也取得了最新的成果。Taigman 等人[23]提出了一种用于人脸验证的深度神经网络。他们的网络需要在应用网络之前将图像与面部标志对齐。Schroff 等人[21]使用大型数据库和三重态损失对未对齐图像进行了训练。Parkhi 等人[17] 在训练更深入的网络和更小的训练集的同时,也取得了类似的结果。

据我们所知,尽管在人脸识别方面进行了大量工作,但还没有专门针对人脸相似性概念的工作。但是,有一些商业应用程序允许您上传图像并在名人数据库中搜索最相似的图像。例如,Mircosoft 公司有一个名为www.celebslike.me的网站,它提供此服务。尽管他们没有描述用于此任务的特定算法,但他们确实链接到MSR-Celeb-lM论文[10]。本文还解决了人脸识别的任务,因此可以假设相似性是由训练用于人脸身份验证网络测量的。

2.2 相似学习

在图像检索和计算机视觉领域中,测量两个图像之间的相似度一直是一项重要任务。传统上,很多研究都是利用低级特征表示之间的距离来推断相似度。诸如纹理[25],[16],形状[3]之类的特征或诸如SIFT [15]之类的其他特征可以从图像中提取并相互比较。尽管这对于简单的图像可以产生良好的结果,但是由于这些低级特征无法捕获测量人类感知到的相似度所必需的高级语义概念,因此它对于一般图像往往表现不佳。

为了捕获这些高级概念,其他论文尝试使用分类器输出[26],[20]来表示图像。主要思想是,由于这些分类器提取了更高级别的信息,因此可以将它们用于更大范围图像上的图像相似性任务。尽管这些方法确实可以产生更好的结果,但是使用严格的语义信息消除了视觉相似性的概念。例如,[7]研究了语义和视觉相似性之间的关系,并证明两者都很重要。

在[8],[9]中似乎已经引入了对三元组图像进行训练以学习度量距离的方法。一个三元组图像由两个来自同一类别的,被认为更相似的图像和一个来自不同类别的,被认为与其他图像不太相似的图像组成,用于学习三元组上的最大边距函数。随着深度神经网络在许多不同任务上的成功,它们也已用于图像相似性。这些研究的总体思想是学习一个嵌入空间,其中图像之间的距离对应于相似性。例如,[27]提出使用三重态损失训练深度神经网络以学习该嵌入空间,进而激发FaceNet三重态损失[21]。。

我们的工作与这些最新的深度学习方法类似,但有一些关键扩展。首先,我们关注的是人脸相似度,而不是一般的图像相似度。与实例分类问题不同,我们的问题显然是确定相似度的问题。这是一个重要的区别,因为人类对面部进行了专门的神经处理[22]与其他图片不同;因此,我们认为面部相似度也应与一般图像相似度分开对待。此外,包含受试者身份的数据集不足以训练面部相似网络。我们通过挖掘关于谁看起来像谁的人的观点来收集针对此任务的自己的真理。该数据集的收集增加了额外的复杂性和机会。最后,由于面部相似性在某种程度上是主观的,因此我们将员工之间的分歧纳入我们的学习中。

第3节 测量相似度和识别度之间的差异

如图1所述,面部相似度和面部识别是相关的但又不同的任务。尽管我们应该期望它们之间具有高度相关性,但是我们最初的假设是,为一项特定任务训练的网络不会为另一项任务产生最佳结果。因此,为了验证该假设,我们进行了一个实验来证明这是正确的,并说明这两个任务的区别。更具体地说,我们使用来自最先进的人脸识别算法的结果,并说明为什么它不能针对人脸相似性任务产生最佳结果。

3.1。人脸识别算法

为了检验我们的假设,我们使用了VGG-Face CNN描述符[17]。该描述符是通过使用由11层组成的“非常深”的卷积神经网络提取的,其中前8层是卷积的,最后3层是完全连接的。使用这种体系结构的优势似乎在于,网络可以使用相对较小的数据集获得最新的结果。例如,在[17]中,他们使用不到1%的训练样本显示出与Facenet [21]相当的结果。

在[17]中,讨论了两种不同的网络训练方法。一种方法是使用三重态损失学习嵌入。另一种是将其训练为分类网络,在训练过程中使用softmax层,但会损失与面部的身份有关的信息。训练完网络后,将删除最终的分类层,并将倒数第二层用作人脸识别的嵌入。由于在每种情况下均获得了相似的结果,因此我们使用第二种方法。使用预先训练的网络,我们通过使用标准训练和测试分割对LFW [12]进行测试来验证其准确性。我们获得的ROC-AUC为0.9773,与最新的人脸识别结果相当。

3.2。数据采集

为了测试这种人脸识别网络在人脸相似性任务中的性能,我们需要收集一个新的数据集,该数据集能够捕捉到人类在人脸数据集中对谁长得像谁的看法。使用Amazon Mechanical Turk,我们要求工作人员比较两对面孔,然后选择看起来更相似的那对面孔。

对于此任务,我们决定使用Color-Feret数据集[19],[18]。尽管Color-Feret数据集被认为是用于面部识别的简单数据集(与诸如LFW等较新的数据集相比),出于一些原因,我们还是决定将其用于此任务。首先,由于我们试图检查从面部识别算法提取的描述符在面部相似度上的表现如何,因此我们希望拥有一个具有出色面部识别性能的数据集。也就是说,我们要确保我们的人脸识别描述符在相似性方面表现不佳的原因不是因为它最初在人脸识别方面做得不好,而是因为这两个任务本质上是不同的。其次,由于照片是在受控的环境中拍摄的,因此我们认为对于一个贴标人来说,更容易判断两张脸的相似程度。最后,数据集被很好地组织,身份被保证是唯一和准确的。

由于我们希望使用该数据集来检查VGG人脸描述符在此任务中的性能,因此,我们宁愿有意选择特定的图像进行比较,这将使我们最充分地了解人脸识别与人脸相似性之间的关系。我们从数据集中为每个身份选择一个图像(为简单起见,我们选择具有中性表达的简单前向图像),因为我们对人脸相似性而不是识别感兴趣。然后,我们找到数据集中所有图像的VGG人脸描述符之间的距离。

然后,根据它们在嵌入式空间中的距离,将所有对放入10个不同的箱中。例如,它们之间的欧几里德距离为1.2-1.25的所有图像对都在一个箱子中,距离为1.25-1.3的图像对将在另一个箱子中,等等。我们希望将某个箱子中的图像对与所有其他箱子中的图像对进行比较。例如,如果人脸识别距离是人脸相似性的良好代表,则我们期望在仓位1.1-1.15中的对看起来比在仓位1.2-1.25中的对更加相似。因此,我们从每个箱子中选择100个测试用例进行标记。由于我们有10个箱子,并且我们正在将每个箱子与所有其他箱子进行比较,因此我们总共有100 times; =4500 对。

使用Amazon Mechanical Turk,我们进行了一个实验,向工作人员展示一对,并询问哪对面孔看起来更相似。任务的示例如图2所示。向每个机械土耳其人工人提供10对随机对,每个任务由10个不同的工人执行。

图2 结果表明,VGG描述子在人脸相似度任务中具有良好的性能。(a) 我们的Amazon Mechanical Turk任务的一个例子,用于检查这种关系。(b) 在列bin上选择行bin的次数(如果没有至少80%的一致性,则忽略测试)。标题表示每个箱子的距离上限。可以在3.3节中找到更多详细信息。

3.3数据分析

结果如图2(b)所示,其中矩阵的第i行第j列处的每个单元aij是一对距离di到一对距离dj的比较。箱子的顺序是递增的(即igt;j表示digt;dj)。图2(a)显示了在100个任务中距离 di 被选择为比距离dj的对更相似 的任务的数量。如果工人之间没有达成至少80%的协议,我们将忽略比较(因此aij ajile;100 )。这意味着至少有8/10个贴标人同意某个标签对更为相似。我们这样做是为了确保我们正在研究有意义的对。

当首先检查图2(b)时,很明显在识别嵌入空间中的距离与感知的相似性之间存在很强的相关性。例如,右上角具有高值的事实表明,在将小距离对与大距离对进行比较时,几乎总是选择小距离对,因为它们更相似。即使这些数字未达到100,通常也不是因为选择了较大的bin对,而仅仅是因为没有80%的一致性。在大多数单元格大约为0的左下角可以看到这一点。

但是,矩阵的左上角表明,尽管相似性和识别性相似,但不一定相同。在这个区域中,我们正在研究两个对都具有相对较小距离的任务。由于距离的差异很小,因此许多任务无法达成80%或更高的一致性。但是,当我们检查这两个组合时,我们发现aij并不比aji大多少。也就是说,在许多情况下,工作人员选择距离越远的那对就越相似。实际上,当将相互比较的5个最小距离容器(矩阵左上角)相加,并将上三角形(根据嵌入距离标记的成对)和下三角形(与嵌入预测相反标记的成对)的和进行比较时,准确率仅为66.43%。

因此,尽管2(b)清楚地表明相似性和识别性之间存在很强的相关性,但是当查看距离相对较小的一组图像时,它似乎不太起作用。也就是说,尽管识别嵌入可以将“完全不相似”与“有点相似”区分开来,但是在找到该组中最相似的图像方面做得并不出色。这是一个重要的缺陷,因为在许多情况下这将是面部相似的目标。我们希望我们的相似性度量能够选择“最相似的人”,就像面部识别的任务是选择一个单一的身份一样。

第4节 相似网络

为了预测人脸的感知相似度以更准确地反映人的观点,我们需要训练专门针对该任务的网络。但是,收集人脸相似性数据集比人脸身份数据库要困难得多。这是因为人们可以使用不同的元数据(如标题或标记)推断一个人脸的身份,如[10]。这允许具有

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239949],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。