英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
基于神经聚合网络的视频人脸识别
摘要
本文提出了一个神经聚合网络(NAN)用于视频人脸识别。该网络将人脸视频或者一定数量的人脸图片组成的人脸图片集作为它的输入,并产生紧凑的、固定维度的特征表示用于识别。整个网路由两个模块组成。特征压缩模块是一个深度卷积神经网络(CNN),其将每个人脸图片映射到一个特征向量。特征聚合模块有两个注意块组成,这两个注意块可以自适应地聚合特征向量以在它们跨越的凸包内部中形成特征向量。由于使用了注意力机制,特征的聚合不会随着图像顺序的变化而变化。我们的NAN神经网络是在没有添加任何额外监督信号的情况下,使用标准分类或验证损失值进行训练的。通过实验我们发现,在IJB-A、YouTube Face、Celebrith-1000视频人脸识别基准测试中,我们的模型始终超越简单的聚合方法并且实现了最好的准确度。
1.介绍
近年来,视频人脸识别越来越受到社区的关注[42, 21, 43, 11, 26, 22, 23, 27, 15, 35, 31, 10]。与基于图像的人脸识别相比,我们可以从输入的视频中提取出更多与物体相关的信息,这些信息可以将不同姿势和照明条件下的同一个人的人脸合并起来。视频人脸识别中的关键位是建立适当的视频人脸表示,以便它可以有效地将信息跨不同帧集成在一起,在保留有利的同时丢弃噪声信息。
图1.我们用于视频人脸识别的神经网络架构
一种简单的方法是将视频人脸特征表示为一组帧级别的人脸特征,例如从深度神经网络提取的人脸特征[35,31],以及最近人脸识别的主流方法[35,28,33,31,24,41]。这种表示包括了所有帧之间的信息。但是为了比较两个视频人脸,我们需要将两个人脸视频中的帧进行逐一比较并融合比较后得到的匹配结果。假设视频帧的平均数量为,则每次匹配操作的计算复杂度为,这个结果是不可取的,特别是对于大规模的识别。此外,这种基于图片集的表示会导致每个视频都会造成的空间复杂度,这需要大量的存储器进行视频存储,同时还需要有效的索引。
我们认为,无论视频的长度如何变化,在视频级别使用一个压缩的、固定尺寸的特征表示会更加方便。这种特征表示将允许直接的、恒定时间的相似度或者距离计算,而不需要进行帧与帧的匹配。一个简单的解决方案是在每一帧中提取一个特征,然后进行某种类型的合并以将帧级别的特征聚合在一起以形成视频级别的特征表示。
最常见的池化策略是平均池化和最大池化。虽然这些简单的池化策略在以前的作品中被证明是有效的,但我们认为,良好的池化策略或聚合策略应该将所有帧的特征进行加权整合。之所有这么认为,原因很简单:视频(尤其是长视频序列)或图像集可能包含在各种照明、分辨率、头部姿势等条件下捕捉到的人脸图像,而智能算法应该倾向于更具辨别性的人脸图片(或更“可记忆性”),并防止恶劣的人脸图像影响识别。
为此,我们希望寻找到一种自适应加权方案,将视频中的所有帧级别的特征线性组合起来,形成一个紧凑且更具区别性的人脸表示。与之前的方法不同,我们既不固定权重也不依赖任何特定的启发式来设置它们,而是设计了一个神经网络来自适应地计算权重。我们将这个网络命名为神经聚合网络(NAN),其系数可以通过在正常人脸识别训练任务中的监督学习来训练,而不需要额外的监督信号。
我们所提出的NAN模型由两个主要模块组成,可以分别进行端到端或逐个训练。第一个是特征压缩模块,它可以作为使用深度CNN模型的帧级别特征提取器。另一个是自适应地将所有视频帧的特征向量融合在一起的聚合模块。
我们的神经聚合网络旨在继承池化技术的主要优势,包括处理任意输入大小和生成顺序无关的特征表示。这个网络的关键部分受到神经图灵机[12]和[38]的工作启发,两者都应用了注意力机制,通过访问外部存储器来组织输入。这种机制可以接受任意大小的输入,并且可以通过加权平均来突出或者抑制每个输入元素,更重要的是它是顺序无关的并且具有可训练的参数。在这项工作中,我们设计了一个简单的网络结构,它拥有两个与注意力机制相关的级联的注意块用作人脸特征聚合。
除了构建视频级别的表示之外,神经聚合网络还可以作为物体级别的特征提取器来融合多个数据源。例如,可以使用所有可用的图像和视频或者来自同一个物体的多个视频的聚合特征来获取具有固定大小的单个特征表示。由于压缩表示的原因,人脸识别系统不仅具有时间和存储的优势,而且还表现出优越的性能,这一点我们将在我们的实验中展示。
我们对提出的视频人脸验证和识别任务进行评估,与基线策略和其他竞争方法相比,我们在三个挑战性的数据集Youtube人脸数据集[42]、IJB-A数据集[19]和Celebrity-1000数据集[23]中观察到一致的性能提高。
最后我们将指出,我们提出的NAN可以作为学习内容自适应池化的常用框架。因此,它也可以用做其他计算机视觉任务的功能聚合方案。
1.1相关工作
过去已经研究了许多基于视频或图像集的人脸识别。本文关注的输入是一组无序图像。这里不考虑一些现有的利用时间动态的方法。对于基于集合的人脸识别,许多先前的方法试图用容貌子空间或流形表示该组人脸图像,并通过计算流形相似度或距离来执行识别[20,2,18,40,37]。这些传统方法在受约束的设置下可能运行良好,但通常无法处理存在大量外观变化的具有挑战性的无约束场景。
另外一条不同的技术路线是,一些方法是建立基于局部特征的视频特征表示[21,22,27]。例如,PEP方法[21,22]通过提取和聚类局部特征来进行基于部分的特征的表示。视频Fisher向量人脸描述符使用Fisher向量将不同视频帧的局部特征集合在一起,形成视频级别表示。最近,先进的人脸识别方法一直以深度卷积神经网络为主[35,31,28,7,9]。对于视频人脸识别,大多数的方法是使用成对帧特征的相似度计算或简单(平均/最大)帧特征池化。这促使我们寻求自适应的聚合方法。
如前所述,这项工作也与神经图灵机[12]和[38]的工作有关。 但值得注意的是,虽然他们使用递归神经网络(RNN)来处理顺序输入/输出,但我们的方法中没有RNN结构。 我们只借用他们的可区分内存寻址/注意力机制来实现我们的特征聚合。
2.神经聚合网络
如图1所示,NAN网络将人的一组人脸图像作为输入,并输入单个特征向量作为其识别任务的表示。它建立在新型的深度CNN模型上,用于帧特征的压缩,并且自适应地压缩视频中的所有帧形成一个紧凑的向量表示。
图2.在IJB-A数据集上的人脸,根据他们在一个注意块下训练的分数进行排序
2.1特征压缩模块
NAN模型中的图像压缩模块是深度卷积神经网络(CNN),其将视频的每一帧压缩成一个人脸特征表示。为了利用具有高性能的新型深度CNN网络,本文中我们采用了GoogLeNet[34]和Batch Normalization(BN)技术[17]。当然,其他网络体系结构也同样适用于此。GoogLeNet生成128维图像特征,这个特征首先被归一化为单位向量,然后输入到聚合模块中。在本文的其余部分,我们将简单地将使用的GoogLeNet-BN称为CNN。
2.2特征聚合模块
假设视频人脸识别任务的数据为对视频人脸数据,代表一个人脸视频或者图像集,它包含张不同的人脸图片。,其中代表视频中的第帧,而代表所对应的物体的编号。每一帧都有一个从特征压缩模块提取出的归一化特征表示。为了更好的可读性,我们在其余文本中适当的地方省略了上部的索引。我们的目标是利用视频中的所有特征向量生成一组线性权重,这样的话聚合后的特征表示就是
(1)
在这种情况下,聚合特征与由CNN提取的单个人脸图像特征具有相同的大小。
显而易见,Eq.1的关键是它的权重。如果,那么等式1就降级为简单的平均,这通常不是最优的,对此我们将在实验中进行展示。因此,我们试图设计一个更好的加权方案。
在我们设计聚合模块时将考虑三个主要因素。首先,模块应该能够处理不同数量的图像,也就是不同的,因为视频数据源因人而异。其次,聚合对于图像顺序是无关的,我们更希望当图像顺序颠倒或者打乱时结果并不会发生改变。这样,聚合模块可以处理任意一组图像或视频人脸,而无需时间信息(例如从不同的互联网站收集的信息)。第三,模块应该适应输入的人脸,并且可以通过标准人脸识别训练任务中的监督学习来训练参数。
我们的解决方案受到[12,32,38]中描述的记忆注意力机制。我们的想法是使用神经网络通过可区分的寻址/注意力机制来读取外部记忆。这种模型通常与递归神经网络(RNN)相结合来输出顺序输入/输出[12,32,38]。尽管我们的目的不需要RNN结构,但其记忆注意力机制适用于我们的聚合任务。在这项工作中,我们将人脸特征作为记忆,将投影特征权值作为记忆寻址过程。我们在聚合模块使用“注意块”,这将在下面进行描述。
2.2.1注意块
注意块从特征压缩模块读取所有的特征向量,并为它们生成线性权重。具体来说,假设是人脸特征向量,那么注意块使用点积内核进行过滤,产生一组相应的重要性值。然后它们被传递给softmax层以产生积极的权重,并且满足。这两个操作可以分别由以下等式来描述:
(2)
(3)
表1.在IJB-A数据集上的比较效果
可以看出,我们的算法基本上选择了所有特征向量所包围的凸包内的一个点。有一项相关的工作是每一个人脸图片集近似为一个凸包,集合相似度被定义为两个凸包之间的最短路径。
在这种情况下,输入的数量不会影响与单个特征具有相同维度的聚合特征。此外,聚合结果对于的输入顺序是无关的:根据等式1、2和3所示,置换和对聚合表示没有影响。并且,注意块由过滤器内核调整,可通过标准反向传播和梯度下降进行训练。
单一注意块——通用人脸特征质量测量。我们首先尝试使用一个注意块进行聚合。在这种情况下,向量是要学习的参数。它具有与单个特征相同的尺寸,并且可用作测量人脸特征质量的通用先验条件。
我们使用提取的人脸特征在IJB-A[19]数据集上训练网络(详见第2.3节和第3节),图2显示了数据集中所有人脸图像的排序得分。可以看出,在训练之后网络倾向于高质量的人脸图像,例如高分辨率和相对简单背景的人脸图像。它对那些模糊、遮挡、不适当的曝光和极端姿势的图像进行权重的降低。表1显示该网络在验证和识别任务中的准确率比平均池化基线方法更高。
两个级联注意块——内容感知聚合。我们认为内容感知聚合会有更好的效果。有这种直觉是因为人脸图像变化可以在特征空间中的不同地理位置处以不同方式表现(针对不同的人),而内容感知聚集可以学习去选择对于输入图像集的身份更有区分性的特征。为此,我们采用级联和端到端的方式使用两个注意块,如接下来所描述的。
令为第一个注意块的核,为的聚合特征。我们通过以为输入的传输层自适应地计算(第二个注意块的核):
其中和分别是神经元的权重矩阵和偏差向量。而代表双曲正切非线性。由生成的特征向量将是最终的聚合结果。因此,是聚合模块中需要训练的参数。
我们再次在IJB-A数据集上训练网络,表1显示该网络比使用单个注意块取得了更好的效果。图3展示了一些权值通过不同视频或图像集计算得到的神经网络。
图3.使用NAN进行视频帧权重计算的一些典型例子
我们目前对NAN的全部解决方案(基于所有剩下的实验结果得到的)均采用了这种两个级联注意块的设计(如图1所示)。
2.3网络训练
NAN网络可以针对人脸验证和识别任务通过标准配置进行训练。
2.3.1训练损失值
针对验证任务,我们建立了一个具有两个NAN共享权重的相连神经网络结构[8],并且最小化平均对比损失[14]:,其中当对是从一个个体中选出时=1,否则=0。常量在我们所有的实验中均设为2.
针对识别工作,我们在NAN的顶部全连接层上添加了一个softmax层,并且最小化平均分类损失。
2.3.2模块训练
这两个模块可以同时以端到端的方式进行训练,也可以逐个分别进行训练。在这项工作中我们选择第二种方式。具体来说,我们首先在带有识别任务的单个图像上训练CNN,然后使用由CNN提取的特征训练聚合模块。更多的细节可以在第3.1节中找到。
我们选择这种单独训练的策略主要有两个原因。首先,在这项工作中,我们希望重点分析有关注意力机制的聚合模块的有效性和性能。尽管在基于图像的人脸识别任务重应用深度CNN已经取得了巨大的成功,但就我们所知,CNN特征聚合并未受到重视。其次,训练深度CNN通常需要大量的标记数据。虽然现在有数百万的静止图像可以用于训练[35,28,31],但收集如此多数量的独特人脸视频或集合似乎并不实际。所以我们将NAN的端到端训练作为我们未来的工作。
3.实验
本节评估提出的NAN网路的性能。我们将首先介绍我们的训练细节和基线方法,然后在三个视频人脸识别数据集上报告结果:IARPA Janus基准A(IJB-A)[19],YouTube人脸数据集[42]和Celeb
全文共18195字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12773],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。