英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
面部完成的辅助信息:一种鲁棒性主成分分析法
IEEE学生会员薛年娜,邓建康,程诗阳Yannis PanagakisStefanos Zafeiriou摘要:鲁棒主成分分析(RPCA)是一种学习多种视觉数据低阶特征表示的有效方法。然而,对于某些类型以及大量的错误损坏,它不能产生令人满意的结果,这种损坏可以通过利用与领域相关的先验知识或信息来减轻。在本文中,考虑到这样的辅助信息,我们提出了两个模型的RPCA,即使存在缺失值。我们将该框架用于完成在姿态不变人脸识别中得到广泛应用的紫外线吸收任务。此外,我们构建了一个生成对抗性网络(gan)来提取副信息以及子空间。 这些子空间不仅有助于恢复,而且加快了处理大规模数据的速度。 我们通过合成数据和五维世界数据集对所提出的方法进行定量和定性评价,以验证其有效性。
关键词:RPCA,GAN辅助信息,紫外线吸收,人脸识别
- 介绍
紫外线空间嵌入一个3d脸的多面体作为一个2d 连续图集。相邻的紫外线空间是许多三维扫描设备的自然产物,经常用于三维形变模型(3dmm)的建设。虽然不能从任意的二维图像构建自然的紫外线空间,但通过对图像进3dmm 拟合,并对相应的纹理进行采样,依旧能获得一幅紫外线图。我们在图中举例说明这个过程。不幸的是,由于人脸的自我遮挡,这些紫外线地图总是不完整的,而且很可能会漏掉提供信息的面部部分。一旦完成,这个结合相应三维人脸紫外线图,是极其有用的,因为它可以用来合成二维脸的任意姿势。然后,我们可以探测相似的姿态图像对,以提高识别性能。因此,姿态不变人脸识别的成功依赖于紫外线图的完成质量。
通过使用缺失数据的鲁棒主成分分析(rpca),可以从一系列相关的面部框架中恢复紫外线图谱。这是因为大姿势的自遮挡导致不完整和缺失的数据和不完善的拟合导致区域误差。主成分追踪(PCP)是[7],[8]所推荐的,且它的变体例如[9],[10],[11],[12],[13]是解决RPCA的常用算法。PCA使用核标准和l1- 范数(分别是秩和稀疏约束的凸代数)逼近原始的 l0- 范数正则化秩最小化问题。遗憾的是,pcp 以一种孤立的方式运作,其中依赖于领域的先验知识[14] ,辅助信息[15]总是被忽略。此外,现实世界的视觉数据很难满足pcp为精确恢复所提出的严格假设。这些要求一个更强大的框架,可以吸收有用的优先权,以减轻退化或次优的pcp 解决方案。已经证明,在矩阵完成[17]、[18]和压缩感知的背景下,辅助信息是有利的。最近pcp 框架中利用了无噪声的特性[20], [21],[22], [23]。特别是,一个无错误的正交柱状空间被用来驱动一个人特有的面部变形模型[21]。特性也消除了对行相干性的依赖,这在多个子空间并集的情况下是有益的。更广泛地说,Chiang 等人在一个较简单的问题中,同时使用了一个列和一个行空间来恢复它们之间相互作用的重量。这种方法成功的主要障碍是需要一组干净、无噪音的数据样本来测定低等级部件的列或行空间。但在实际中没有规定的方法来找到它们。另一方面,图像修复的神经网络的快速发展,为我们提供了大量有用的前提。帕塔克等人建议上下文编码器的重建和对抗性损失,以产生遵守缺失区规定的内容。杨等人[25]进一步改进了修补与多尺度神经片合成方法。这种方法基于图像内容和文本约束的联合优化,不仅保留了上下文结构,而且产生了精细的细节。李等人[26]合并了面积构造损失、两个对抗性损失和语义解析损失,以确保本地或全局内容的真实性和一致性。由于以下原因,这些方法决不是绝对的:(a)他们的面具是人造的,与3d 面具没有语义上的对应;(b)他们不容许超过50% 的遗漏区域,这在我们的案例中是司空见惯的。这篇论文是基于我们的初步工作[27],并研究了1)紫外线完成的问题和2)合并生成对手网络提供的辅助信息。因此,我们扩展了pcp,以利用有噪声的先验信息,从而实现更好的紫外线图像重建。然后我们使用已完成的紫外成像图进行姿态不变的人脸识别实验,实验结果表明了我们的框架的优越性。 图2详细说明了整个工作流程。我们的贡献摘要如下:
- 提出了一种新的凸规划方法,在pcp 框架内利用边界信息,即低阶分量的噪声逼近,该方法能够处理错误值,同时所开发的优化算法具有收敛性。
- 此外,我们扩展了我们提出的pcp 模型,使用辅助信息信息利用先前的知识,在一个更通用的算法框架中包含低阶组件的列和行空间。
- 在紫外线完成的情况下,我们建议使用生成对抗性网络来提供子空间特征和辅助信息,从而无缝地将深度学习融入到鲁棒的主成分分析法的框架中。
- 通过定量和定性评价,验证了该方法在人脸图像去噪、紫外纹理复原和姿态不变人脸识别实验中的适用性和有效性。本文的其余部分如下。我们在第2节讨论相关文献,而在第3节中提出了使用缺失值侧面信息(pcpm)及其扩展结合了特征(pcpm / fm)的主成分分析。 在第四部分,我们首先评估我们提出的合成算法,以及真实世界的数据。然后,我们介绍了来源的特点和主题为紫外线完成的辅助信息。最后给出了人脸识别的实验结果。除非另有说明,符号小写字母表示标量,大写字母表示矩阵。对于矩阵a 的范数, 是frobenius 范数,是核范数,是所有矩阵项的绝对值之和。此外,表示实矩阵A,B。另外, 表示相同维数的两个矩阵的初等相乘。
- 相关工作
我们讨论两种不同的研究方向,即低等级恢复和图像修复。
2.1鲁棒性主成分分析
设矩阵具有等级,稀疏矩阵具有任意大小的项。如果我们观察矩阵,RPCA的目的是通过解决以下目标来恢复它们:
s.t. (1)
这里是一个规则化参数,然而,(1)不能被轻易的解决。Pcp 取而代之解决的是以下凸代理:
s.t. (2)
这在温和的条件下等于(1)。 目前,针对(2)存在许多有效的解决方案,其应用包括监控视频的背景建模、人脸图像的阴影和特征消除等。在子空间聚类[22] ,[23]的基础上,提出了词典合并的第一种方法。Lrr 算法假设我们有一个正交列空间,其中,并优化如下:
s.t. (3)
给定一个面部图像的标准正交统计优先级,lrr 可以用于从错误的初始化建立特定于人的变形模型[21]。将上述推广为具有特征的主分量追踪(pcpf)[20],其中进一步的行空间,被假定可用于以下目标。征需要精确和无噪声,这在实际场景中是不容忽视的。在数据缺失的情况下,健壮的矩阵恢复方法[6] ,[28]增强 pcp 来处理遮挡。
2.2图像补全神经网络
卷积神经网络(cnn)的最新进展也显示了视觉特征学习的巨大希望。 接触编码器(ce)[24]使用编解码流水线,编码器接受具有缺失区域的输入图像产生潜在特征表示,解码器接受产生缺失图像内容的特征表示。Ce 使用了联合损失函数。
3.基于辅助信息的鲁棒主成分分析
在这一节中,我们提出了利用辅助信息的 rpca 模型。特别是,我们利用低阶分量与噪声估计量跟踪距离之间的差异,在顶端 cp 中加入了边信息,这可以被看作是带有先验信息的压缩感知的推广,其中l1范数被用来最小化目标信号与边信息之间的距离[19].
4.实验结果
在这一节中,我们通过数值模拟和现实应用来说明辅助信息所做的增强。首先,我们解释在我们的实现中使用的参数是如何调优的。其次,我们比较了我们提出的算法的可扩展性,以及在没有可用特征的情况下,合并特征或字典的最先进方法。最后,我们展示了在后不变人脸识别中,辅助信息对于完成紫外线任务是多么强大,其中特征和辅助信息都来自生成对手网络。
对于IRR来说,洁净的子空间x被用作[21],而不是作为字典观测 x 本身。通过不精确算法[32]解决了pcp 问题,本文没有采用预测主奇异空间维数的启发式方法,因为它对未知实际数据缺乏有效性[34]。 在我们的比较中也包括了奇异值的部分和(pssv)[35] ,因为它在有限的图像数量方面有明显的优势。为了保持一致性,pcpf、lrr、pcp 和psv 的停止标准都设置为相同的 kkt 最优条件。
为了调整算法参数,我们首先进行如下的基准测试:一个低阶矩阵L0由产生,随机设置38000个元素为零,其他元素以等概率取值为1,生成200x200个稀疏矩阵。虽然本文的理论确定和超出了本文的范围,但我们在大量实验的基础上提供了实证指导。图3(a)及图3(b)分别给出下界及上界,以供观察作为附带资料。可以很容易地看出,(或对于一般的维数矩阵),鲁棒主成分分析在这两种情况下都很有效。反之,则取决于辅助信息的质量。当辅助信息准确时,应尽可能利用辅助信息,而当辅助信息不正确时,则应选择一小部分以规避辅助信息引起的不一致。在这里,我们发现0.2的效果最适合合成数据,0.5的值适合于公共视频序列,这两者将在随后的部分与上述其他参数设置一起用于所有实验。先前知识的结构化信息的数据产生更适当的价值和是值得重申的。
4.2合成数据集上的相变
我们现在关注可恢复性问题,即从不同稀疏度的错误中恢复不同秩的矩阵。接下来,我们推导出200x200个误差矩阵E0。完整观察图4(a.1)和(a.2)绘制 pcpf、lrr 和 pcpsfm 的结果。另一方面,特别是在低等级的情况下,密度更高的误差可以被消除。在没有特征的情况下,pcpsm大体上超过了 pcp,两种情况都有显著的扩展,但稀疏度都很小。 Rpcag 和 pssv 的结果较 pcp 差,lrr 略有改善(见图4(b.1)、(b.2)、(b.3)和 b.4))。部分观测图5(a.1)和(a.2)绘制了10% 元素被遮挡时 pcp、 lrr 和 pcpsfm 的结果,以及无特征的 pcp 和 pcpsm 的图5(a.3)和(a.4)。 在任何情况下,恢复区域都会缩小。 然而,现在在 pcpf,pcpsfm 和 pcp,pcpsm 之间有更大的差距。 这标志着辅助信息的有用性,尤其是在缺少观测的情况下。我们注意到,在无法开采的地区,pcpsmand pcpsfm 仍然获得小得多的 值。frpcag 没能恢复任何东西。
4.3面部去噪
如果一个曲面是凸朗伯特曲面,且光线各向同性且距离遥远,则渲染出的模型跨越一个9维线性子空间[37]。尽管如此,面部图像仅仅是近似的,因为面部谐波平面具有负像素,真实的光照条件不可避免地引起遮挡和反照率变化。 因此,将人脸图像分解为人脸描述的低阶分量和缺陷的稀疏分量是比较合理的。在追求这种低层次的描绘,我们建议,可以进一步提高性能的脸部特征,利用一个形象,忠实地代表主题。
我们从扩展的耶鲁 b 数据库中选取不同光照下的固定姿态图像进行测试。 研究了每个人的全部64张照片。对168x192幅图像进行矢量化处理,得到32556x64个观测矩阵,并选取侧面信息作为所有图像的平均值,平铺成与每幅图像的观测矩阵相同的大小。此外,每张图片有5% 的随机选择像素被设置为缺失项。
为了让llr,pcpf 和 pcpsfm 运行,我们按照 vishal 等人的方法学习功能字典[38]。 概括地说,特征学习过程可以看作是解析编码问题。 更具体地说,我们同时寻找一个字典和一个稀疏表示这样,其中c是原子数量。每个稀疏代码中非零元素的个数,t 是稀疏约束因子。这可以通过 k-svd 算法解决[39]。在这里,特征u是字典d和特征v对应的一个类似的解决方案,使用观测矩阵的转置作为输入。对于实现细节,我们设置c到40,t到40,每个主题使用了10个迭代。
作为一个视觉说明,两个具有挑战性的实例展示在图6。对于2号实验对象,通过完全消除采集错误,很明显 pcpsm 和 pcpsfm 超越了现有的最佳方法。 更引人注目的是,pcpsfm 甚至设法恢复了学生的闪光灯,而这些闪光灯几乎没有出现在辅助页信息中。对于第34号实验对象,pcpsm 毫无疑问地重建了一个比 pcp 更生动的右眼,而 pcp 只能辨别。尽管如此,pcpsfm 仍然占优势,因为它揭示了更多的阴影,尤其是右眼周围的阴影,并且在上眼睑显示出更明显的折痕,以及更半透明的虹膜。 我们进一步通过考虑其他10个学科的平均值所得到的严格的辅助信息来揭示 pcpsm 和 pcpsfm 的优势。令人惊讶的是,pcpsm 和 pcpsfm 仍然设法去除了噪声,恢复了真实的图像(图6(c.4)和6(c.5))。 我们还注意到 pssv,rpcag,frpcag 对 pcp 的反应和模拟实验一样。因此,我们将专注于 pcp,lrr,pcpf 的比较。
4.4紫外线图的完成
我们关心的问题是完成每一个视频帧序列的紫外线结构。也就是说,我们将 pcpsm 和 pcpsfm 应用于从视频中提取的未完成结构的集合。这种无参数的方法有利于3d变形模型(3dmm)[40]、[41]等统计纹理模型,因为它在重建外部捕获的图像(任意条件下的任何商用相机)时都存在不同的算法。我们通过我们在4DFAB 数据集上提出的方法,定量地评估完整的紫外线图。4DFAB 是第一个为生物识别应用设计的3 d 动态面部表情数据集,180名参与者被邀请在不同的时间参加4个会议。因此,为了完成一个会话的紫外线映射,我们可以利用来自另一个会话的图像作为辅助信息。对于5个随机选择的受试者中的每一个,从第二阶段随机抽取155帧动态序列。矢量化后,形成 a32556x155观测矩阵。为了制作不同形状的紫外线罩,我们用不同的偏航角和俯仰角旋转每个面。偏航角的范围是从 m90度到90度,俯仰角是从[10度,5度,0度,5度,10度]中选择的。 因此,每个实验对象,都会生成155个独特的面具。 我们还把第一次会议的同一主题的图像,贴到32556x155矩阵里作为附加信息。U
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237483],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。