英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
译文:
基于图卷积网络的人脸聚类
摘要
在本文中,我们介绍了一种精确而且可扩展的方法来实现人脸聚类任务。我们的目标是通过人脸潜在的身份来实现人脸聚类。我们将这个问题描述成一个连接预测问题:如果两个人脸有相同的潜在身份,则他们之间存在一种连接。处理该问题的关键点在于我们在一个实例(即人脸)周围的特征空间中找到局部上下文,这中间包含了有关该实例与其相邻实例之间连接关系的丰富信息。我们先通过在每个实例周围建立子图作为输入数据然后利用图卷积网络(GCN)进行推理并推断子图中各对之间存在连接的可能性。实验结果表明,该方法与传统方法相比起来,其对复杂的人脸分布具有更强的鲁棒性,在标准人脸聚类基准上的结果与现有方法具有良好的可比性,并且其还可以扩展到更大规模的数据集。此外,我们还证明了该方法不需要像以前一样预先知道聚类的数量,该方法能够处理噪声和离群值,并且可以扩展到多视图的版本,以实现更加准确的聚类精度。
- 引言
在本文中,我们研究了根据人脸潜在的身份实现人脸聚类的问题。我们假设人脸的表示或身份的数量的分布是预先不知道的。人脸聚类是在人脸分析领域中一项基础性的任务而且在以往已经被广泛研究过 [38, 27, 22, 29]。与其相关的一些关键性的应用包括:在台式机/在线相册中对人脸进行分组和标记 [38],大规模的面部图像/视频采集,以便在时间敏感的场景(如法医调查)中快速检索[19],自动数据清理/标记以构建大规模数据集[26、12、34]。
传统的聚类方法由于对数据分布做出了不切实际的假设,使得人脸表征分布变得复杂。例如,K-Means [24]要求聚类为凸形,谱聚类[28]需要在多个实例中平衡不同的聚类,而DBSCAN [10]则假设不同的聚类具有相同的密度。相比之下,基于连接的聚类方法不需要对数据分布进行假设就可以获得更高的准确性。如图1(a)所示,基于连接的方法旨在预测两个节点(或者聚类)是否应该连接(是同一身份)。图1(b)显示了这个问题的最初解决方案:当它们的欧式距离小于某一阈值时就直接连接两个节点。这显然不是一个好的方法,因为聚类的密度是不同的。因此,人们设计了更多复杂的指标来计算连接的可能性,例如Approximate Rank-Order Distance(图1(c))。
我们提议学习去预测两个节点是否是连接的,而不是通过启发式度量来计算连接的可能性。作为这项工作的核心思想,我们发现可以从节点的上下文中推断节点与其邻居之间的连接的可能性。为了利用节点的上下文中的有价值信息,我们基于GCN提出了一个可学习的聚类方法,图1(d)是我们的主要思想。以下是我们对这个框架的总结。
首先,我们将聚类描述成连接预测问题[36]。也就是说,当两个节点的身份标签相同时,节点之间存在连接。第二,我们仅对一个实例和它最近邻实例进行预测。因此,我们围绕每一个实例(pivot)建立了IPS来描绘局部上下文,每个节点都模拟一个枢轴-邻居对(pivot-neighbor pair)。从IPS中,我们可以推断出哪一个枢轴-邻居对应当被连接然后我们利用GCN来学习这个任务。最后,GCN输出了一系列连接的可能性,并通过传递性合并连接节点得到聚类。
结果表明,与state-of-art方法相比,我们提出的方法具有较高的计算精度和可扩展性。我们提出的方法能够学习自动生成连接的可能性,并且与其他基于连接计算的方法(例如ARO[27])相比,该方法具有更好的表现。此外,我们的方法能够了解噪声和离群值,不需要了解作为输入的聚类的个数,而且易于扩展到多视图版本以利用不同来源的数据。
- 相关工作
人脸聚类.由于在姿势、遮挡、照明和实例数量上的巨大变化,人脸聚类在大小、形状和密度上都有显著的变化。人脸表示的复杂分布使得经典的聚类算法如K-均值(K-Means)[24]和谱聚类(spectral clustering)[28]等不适合应用,因为这些方法对数据分布有严格的假设。有几篇论文提出了基于聚集层次聚类(AHC)[38,22,23]的聚类算法,该算法对复杂分布的数据具有很强的鲁棒性。Lin等人[23]提出了基于邻近感知的层次聚类(PAHC),该聚类利用线性支持向量机对局部正实例和局部负实例进行分类。Zhu等人[38] 提出了一种群集级关联叫做Rank-Order 距离代替原L1,L2距离,并证明了它对噪声/离群值的过滤能力。Lin等人[22]还使用SVDD[30]设计了一个密度感知的群级关联来处理密度不平衡的数据。以上方法在无约束的人脸聚类中都取得了很好的效果,但是它们的计算复杂度仍然是一个问题,这会限制它们在大规模聚类中的应用。幸运的是,近似秩序聚类(ARO)[27]为大规模聚类提供了一个有效的框架。ARO的目标是预测一个节点是否应该链接到它的k个最近邻节点(KNN),并传递合并所有链接对。因此,ARO的计算复杂度仅为O(kn)。近似近邻(ANN)搜索算法也可以加速KNN搜索过程。因此,总体复杂度为O(nlogn)或O(n2),这取决于我们是将k设为常数还是让它随n增加。ARO比基于AHC的算法效率高得多。Shi等人[29] 还采用ANN将其ConPac算法扩展到一个可伸缩的版本。在这项工作中,由于所提出的方法是基于KNN的因此也适合于开发这种框架。
连接预测.连接预测是社交网络分析的一个关键问题[21,1,20,25,36]。给定一个由图组成的复杂网络,目标是预测两个成员节点连接的可能性。为了预测连接的可能性,一些先前的方法,例如PageRank[4]和SimRank[16]分析了整个网络,而其他方法,例如preferential attachment[3],resource allo-cation[37],仅从给定节点的邻居中计算了连接可能性。Zhang和Chen[35,36]认为仅从节点对的本地邻居计算连接似然性就足够了,并且提出了一个Weisfeiler-Lehman Neural Machine[35]和一个图神经网络[36]从局部子图中学习一般图结构特征。由于聚类任务可以简化为连接预测问题我们同样也可以利用图神经网络从局部图中学习。
图卷积网络(GCN). 在许多机器学习问题中,输入可以被当成图形。大量的研究工作[5,8,18,31,13] 致力于为图结构数据设计卷积神经网络。根据在图数据上卷积的定义,GCN可以分为谱域的方法和空间的方法。基于谱域的GCN[5,8,18]利用图傅里叶变化产生卷积,而基于空间的GCN [31,13]直接在图节点及其邻居上执行手动定义的卷积。在应用方面,GCN可以处理导入设置[8,18]和归纳设置[13,31]中的问题。在导入设置中,训练数据和测试数据是同一固定图中的节点,而在归纳设置中,模型需要在不同图之间进行推理。本文我们提出使用基于空间的GCN来解决连接预测问题。设计的GCN在归纳设置中执行图形节点分类。
- 提出的方法
3.1概括
问题定义。假定我们有一些人脸图片的特征 X=[x1,...,xn]Tisin;RNtimes;D 。
其中N代表图片的数量,D代表特征的维度,人脸聚类的目标是分配一个虚拟的标签yi这样有着相同标签的就属于同一类。为了解决这一问题,我们采用了基于连接的聚类范式,其目的是预测实例对之间连接的可能性。因此,在所有由连接对连接的实例之间形成聚类。
动机。这项工作的动机是,我们发现只需要计算实例与其k个最近邻之间的关联似然,就足以产生良好的聚类结果。在表一中,我们展示了不同的k值对于聚类性能上界的影响。为了得到这个上界,如果邻居与该实例具有相同的身份,我们直接将每个实例与其KNN连接起来。结果表明,在不同k值下,该上界还是很高的。这表明,预测实例和它k个近邻之间的有效性,可以不用再在所有节点对上预测。这样做的好处就是在保证系统高效性的前提下我们还可以获得较高的聚类精度。
Pipeline。本文的工作主要研究人脸聚类的效率和准确性。于是我们采用了只在实例和它的K个近邻之间预测连接的思想。由于预测连接是基于上下文的,为了使预测更加准确,我们设计了一个局部的结构名为IPS。IPS是以中心实例p为中心的子图。IPS由节点p和它K个邻居以及p的更高级别的邻居节点组成。最重要的是,我们从所有的节点中减去了p的特征,所以每个节点的特征都编码了中心-邻居之间的连接关系。我们从以下三步展现了我们提出方法的框架,见图三。
●我们将每一个节点都当做pivot,并且为它建立一个IPS。3.2详细介绍了建图流程。
●给定一个IPS作为输入数据,应用图卷积网络(GCNs)对其进行推理,网络对每个节点输出一个分数,即对应的枢轴邻域对之间的连接可能性。3.3介绍了GCN的工作机制。
●上述步骤在整个图中输出一组加权边,其中的权重是连接可能性。最后,我们根据连接的可能性将连接的实例转换为集群。详情见第3.4节。
-
- IPS的构建
我们根据图中两个人脸图像(节点)的上下文来估计它们之间的关联性。在本文中,我们建议建立IPS作为上下文。IPS由三个步骤生成。IPS建立有三步:首先,我们定位IPS的所有节点。然后,我们通过减去中心节点的特征正则化节点的特征。最后,我们在节点间增加边。图2是建立IPS的过程。
第一步:发现节点 给定pivot节点p,我们把p的邻居(直到h级别)作为IPS的节点。对于每一个级别的节点,选择的节点数可以不一样。我们用ki作为第i级别的最近节点数。例如,设P为中心点,h=3,k1=8,k2=4,k3=2 p的最近邻居有8个,每个p的一级邻居有4个最近邻居,p的每个二级节点有2个最近邻居。注意到,p不算在IPS的节点集中。当我们这么做时,高级别的邻居能够提供中心节点和邻居之间上下文的局部结构的辅助信息。例如, 对于p和它的邻居之一q,如果q的k个近邻与p离得比较远,那么p和q之间的连接可能性就比较小。
第二步:节点特征正则化。现在,我们有中心实例p,节点集Vp和他们的节点特征xp和xq。为了将中心节点的信息编码进IPS中的节点特征,我们通过减去xp正则化特征,
Fp=[...,xqminus;xp,..]T,qisin;Vp
我们用Fpisin;R∣Vp∣times;D 代表正则化的节点特征。
第三步:在节点中增加边。 最后一步是在节点之间增加边。对于一个节点q(属于Vp),我们首先在初始的所有节点集中找到最近的u个邻居。如果uNN中的一个节点r出现在Vp中,我们就连接(q,r),并加入边集Ep。这个过程保证了节点度不会相差太多。最后,我们利用了一个邻接矩阵Apisin;R∣Vp∣times;∣Vp∣和节点特征矩阵Fp代表IPS的拓扑结构。
3.3 IPS上的卷积
IPS(节点间的边)中包含的上下文对于确定节点是正(与中心节点连接)还是负(与中心节点不连接)非常有价值。为了利用它,我们将图卷积网络(GCN)[18]稍加修改应用在IPS上。图卷积层将节点特征矩阵X和邻接矩阵A作为输入,输出变换后的节点特征矩阵Y。在第一层中,输入节点特征矩阵是原始节点特征矩阵,X=F。在我们的例子中,图卷积层的形式如下:
Y=sigma;([X∣∣GX]W)
N是节点数,din 和dout是输入/输出节点矩阵的维度。G=g(X,A)是Ntimes;N的聚合矩阵,每一行的和是1,而g(·)是X和A的函数。运算符||表示沿特征维度拼接矩阵。W是图卷积网络的权重矩阵,大小为2dintimes;dout,最外层的是非线性激活函数。
图卷积操作可以分成两个部分。第一步,通过G左乘X,聚集节点邻居的潜在信息。然后,输入的节点特征矩阵X就与聚集信息GX拼起来了。在第二步中,通过一组线性滤波器对连接后的特征进行变换,学习参数W。我们研究了用于聚合的g(·)的三种操作。
●均值聚合。聚集矩阵,A是邻接矩阵,Lambda;是对角矩阵且 ,这个均值聚集在邻居之间执行平均池化。
●加权聚合。我们用相应的余弦相似度替换A中的每个非零元素,并使用softmax函数沿每行规范化这些非零值。加权聚合在邻居之间执行加权平均池化。
●注意力聚合。类似于图注意网络[31],我们试图学习邻域的聚集权重。也就是说,G中的元素由两层MLP使用一对枢轴邻居节点的特征作为输入生成。MLP是端到端训练的。注意聚合在邻居之间执行加权平均池,其中权重自动学习。
本文使用的GCN由4个图卷积层组成,激活函数是ReLU,我们在softmax之后使用了交叉熵。实际上我们只反向传播了一级邻居的梯度,因为我们仅仅考虑中心节点和一级邻居之间的邻居。这种策略能够极大加快速度,而且能够得到较好的准确率。原因是高级别的节点大多数是negative,因此,一跳邻居中的正样本和负样本比所有邻居中的样本更加均衡。为了测试,我们也仅在一跳节点上分类。
为了描述图卷积的工作机制,我们设计了一个简单的例子,输入是2D的输入节点特征,并且有两层图卷积网络。每一层的输出维度d1,d2都设为2,方便可视化。在图4中,我们显示了每一层的输出是如何随着迭代次数变化的。每一层图卷积层之后,
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[240390],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。