图像的正则化稀疏编码外文翻译资料

 2022-11-09 15:37:17

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


图像的正则化稀疏编码

摘要

近年来稀疏编码越来越受到关注。它是一种基于数据集中的高级语义的基础集和基于基础集学习稀疏坐标无监督的学习算法。最初在对人类视觉皮层进行建模时,稀疏编码已经成为应用的一个重要方面。然而,大多数现有的稀疏编码方法未能考虑数据空间的几何结构。在许多实际应用中,数据更有可能驻留在嵌入高维环境空间的低维数据流。已经表明数据的几何信息对于辨别是重要的。在本文中,我们提出了一种基于图的算法,称为图形正则化稀疏编码,以学习明确考虑数据的局部流形结构的稀疏表示。通过使用拉普拉斯算子作为平滑算子,获得的数据可以在数据流形的基础上变化。我们提出的算法对图像分类和聚类的广泛实验结果表明了我们提出的算法的有效性。

关键词 - 图像分类,图像聚类,流形学习,稀疏编码。

  1. 介绍

在图像处理中,图像表示起着非常重要的作用。研究人员长期以来一直寻求有效的稀疏图像表示。稀疏表示仅使用几个活动系数对许多图像进行编码,这使得编码易于解释并降低计算成本。已被证明在许多应用中是有用的。为了实现稀疏的表示,已经开发了许多方法,例如,sparsePCA ,稀疏的NMM 。最典型的方法之一是稀疏编码,在机器学习,信号处理和神经科学中受到很多关注。给定输入数据矩阵,稀疏编码旨在找出捕获高级语义的一组基本向量(即字典),以及相对于字典的稀疏坐标。稀疏编码对于数据表示具有几个优点:首先,它产生稀疏的表示时,使得每个数据点被表示为非常多的扩展向量的基本组合。因此,这些数据点可以以更优雅的方式解释。第二,稀疏的表示自然地使得能够快速检索的索引方案。第三,稀疏表示可能是不完整的,这提供了广泛的生成元素。潜在地,宽范围允许信号表示更灵活,并且在诸如信号提取和数据压缩的任务中更有效。最后,有相当多的证据表明生物学视觉在早期视觉区域中采用稀疏表示。从这些优点来看,稀疏编码已被广泛应用于诸如图像恢复,信号分类,面部识别和图像分类。

最近,各种研究人员已经考虑了这样一种情况:对来自在环境空间的子流体上支持或靠近的数据概率分布进行抽样。 在这里,欧几里德空间的维度子集在本质上看起来像维度欧几里德空间的子集。为了检测基础流形结构,已经提出了诸如局部线性嵌入(LLE),ISOMAP和拉普拉斯特征特征等多种多边形学习算法。所有这些算法都使用所谓的局部不变思想,也就是说,附近的点具有相似的嵌入。这表明如果考虑几何结构并考虑局部不变性,那么学习效果可以显着提高。

受最近稀疏编码和流形学习进展的驱动,本文提出了一种新颖的算法,称为图形正则化稀疏编码(GraphSC),它明确地考虑了数据的局部几何结构。 GraphSC建立一个最邻近的图形来对数据中的几何信息进行编码。使用谱图理论中的技术,我们使用拉普拉斯算子作为平滑算子来保留局部分形结构。特别地,拉普拉斯算子作为正则化器被并入到稀疏编码目标函数中。以这种方式,所获得的表示沿着数据歧管的测地线平滑地变化。通过保持局部性,与传统的稀疏编码算法相比,GraphSC可以具有更多的辨别力,因此可以促进机器学习任务,如分类和聚类。本文的实验结果将显示GraphSC的有效性。本文的其余部分组织如下:第二部分我们回顾了关于稀疏编码的相关工作。在第三节中,我们简要介绍稀疏编码问题和解决稀疏编码问题的常用方法。第四节介绍了GraphSC算法,以及优化方案,包括学习稀疏表示和学习字典。图像分类和聚类的实验结果见第五节。最后,我们在第六部分中给出论文。

  1. 相关工作

最近人们对稀疏编码越来越感兴趣。几位作者提出了原始算法的有效优化,扩展和修改。 稀疏编码的弱点之一是优化稀疏编码问题的昂贵的计算成本。 已经进行了几项工作来寻求解决优化问题的方法。在[15]中提出了一种简单的阈值方法,它们分为以下简单迭代:在负梯度方向取Barzilai-Borwein步长,然后将软阈值算子应用于结果。 Lee等人提出了一种特征符号搜索方法,将不可分辨的L1范数问题降低到L1正则化最小二乘问题,加快了优化过程。

几个作者试图为稀疏编码设计一个更合适的字典。传统上,字典从标准基础(例如小波,曲线图,轮廓线]和带束)中选择,甚至生成 从随机矩阵。 最近有几本关于字典设计的作品中,最有效的方法之一是K-SVD方法。K-SVD是一种学习字典的方法,而不是如前所述利用标准库,导致数据的稀疏表示。该算法使用正交匹配追踪(OMP)或基准追踪(BP)作为其学习字典的迭代过程的一部分。

最近,有几项研究着重于研究将稀疏编码与经典机器学习方法结合起来的理论框架。在[14]中,作者试图将线性判别分析(LDA)与稀疏表示法结合起来,其中包括重构属性,辨别力和稀疏性 用于强大的分类。 在[16]中,作者提出了一种有效利用图像分类任务中对应的稀疏信号分解的歧视性方法,并学习了共享字典和辨别模型。

所有前面提到的研究集中在原始稀疏编码的不同方面。然而,他们都没有考虑数据中的几何结构,这已经在许多应用中被证明具有强大的判别能力。已经提出的稀疏编码方法的几种改进方法来为稀疏编码系统分组以捕获数据中的结构增加一些附加约束。可以通过添加额外的空间一致约束来学习本地不变的稀疏表示,这些约束在重叠的窗口中汇集稀疏系数。 Mairal等提出了通过在学习词典的子集上联合分解相似信号组的同时进行稀疏编码,这是通过添加组稀疏正则化器来实现的。

在本文中,我们提出了一种新颖的稀疏编码算法,通过使用已经在分类和聚类任务中有效的歧管假设来得到数据中的几何信息。重要的是要注意,[34]也提出了类似的想法。但详细的优化方案在[34]中没有明确提出,所提方法的有效性仅在图像分类任务上进行评估。我们的论文提供了优化方案的详细解释,并对图像聚类任务进行了实际的实验评估。这些是我们论文中与[34]相比的补充贡献。

  1. 有关稀疏编码的问题

给定一个数据矩阵,使得作为字典矩阵,其中b表示字典中的基向量,并且是系数矩阵,其中每列是数据点的稀疏表示。每个数据点可以表示为字典中那些基本向量的稀疏线性组合。与字典进行优化表示的函数是最小化经验损失函数,这可以表示为。用于测量损失函数的典型标准是。在[28]和[35]之后,我们专注于p=2。然后,稀疏编码的目标函数可以表达如下:

(1)

这个函数可以测量稀疏度和表征矩阵和表示矩阵范数,一个直接的对f的选择就是规范s,就是说,也就是计算s的非零项。然而固定字词B,系数S的最小化问题已被证明是一个NP硬问题。因此,我们转向近似/松弛的方法。关于近似解决这个问题的方法,即匹配追踪(MP)和基本追踪(BP)。 MP试图找出解决问题的方式,而BP通过最近更常采用的规范来代替规范,来弥补原有问题的凸起松弛。按照[7],[16]和[38],f被选为 而不是规范。目标函数就变成了

(2)

虽然(2)中的目标函数仅在B或S中是凸起的,但它们在两个变量中不是凸的。 解决这个问题的自然方法是通过最小化一个变量同时保持另一个变量固定,用迭代来优化目标函数(2)。 因此,它成为一个不规则的最小二乘问题加上一个约束最小二乘问题,它们都可以通过几种优化方法得到有效的解决。

第4章 图形正则化稀疏编码(GRAPHSC)

在本节中,我们介绍了图形正则化稀疏编码(GraphSC)算法,其考虑了数据空间的局部流形结构。

A.目标函数

回想一下,稀疏编码试图找出字典和稀疏系数矩阵,其乘积可以最佳地近似原始数据矩阵。列向量可以被认为是基本向量,每一列是这个新空间中每个数据点的新表示。人们可能还希望基础向量可以尊重内在的黎曼结构,而不是环境欧几里德结构。这里的一个自然假设可能是,如果两个数据点xi,xj在数据分布的固有几何中接近,则si和sj,这两点相对于新基础的表示也彼此接近。这个假设通常被称为流形假设,它在开发各种算法,包括降维算法,聚类算法,[41]和半监督学习算法。

给定一组n维数据点x1,x2,我们可以构造具有m个顶点的最近邻图G,其中每个顶点表示数据点。 令W为G的权矩阵。如果x在xj的k个最邻近的邻域之中,或者xj在xi的k个最邻近域之间,那么Wij = 0。我们定义xi的程度为,

考虑将加权图G映射到稀疏表示S的问题,选择“良好”映射的合理标准是使以下目标函数最小化:

(3)

其中L = D-W是拉普拉斯矩阵。 通过将拉普拉斯正则化程序(3)合并到原始的稀疏编码中,可以得到GraphSC的以下目标函数:

(4)

其中是正则化参数。

按照[7]中的迭代优化方法,我们将GraphSC算法分为两个步骤:学习图形正则化稀疏码S,同时修正字典B,学习字典B同时固定系数矩阵S。

B.学习图形正则化稀疏码S

我们讨论如何通过修正字典B来解决问题(4)。问题(4)变成了

(5)

因为当si包含0的值时,具有l规则化的问题(5)是不可区分的,所以不能应用标准的无约束优化方法。 已经提出了几种方法来解决这种形式的问题[43] - [47]。 在下文中,我们介绍一种基于坐标下降的优化方法来解决这个问题。 很容易看出问题(5)是凸的,因此可以实现全局最小化。

我们单独更新每个矢量,同时保持所有其他向量恒定。 为了通过优化来解决问题,我们应该以矢量形式重写问题(5)。

重建错误可以重写如下:

(6)

拉普拉斯正则符可以重写如下:

(7)

结合(6)和(7),问题(5)可以重写为

(8)

更新时,其他向量被固定。因此,我们得到以下优化问题:

(9)

其中和是si的系数。

根据[7]中提出的特征符号搜索算法,问题9可以解决如下:为了解决不可分辨的问题,我们采用一个子梯度策略,其使用f(si)在不可分的点的子梯度。 首先,我们定义,然后。在非平滑优化中,参数向量作为局部最小值的必要条件是零向量是子参数的一个元素,该集合包含该参数向量[48]中的所有子梯度。 我们将定义为si的系数的可分解值。 如果gt;0,则绝对值函数是可微分的,因此由给出。如果,则子区分值是集合[-1,1]。因此,实现f(si)的最优值的最优条件转化为

那么,在如果的情况下,我们考虑如何在违反最优条件i.e的情况下选择最优的子梯度。 当,我们考虑上一个表达式中的第一个项。 假设, 这意味着f,不管的符号。 在这种情况下,为了减少f(si),我们将要减少。 由于从0开始,对于的最优调整将是负的。 因此,为了我们的目的,我们可以让。 同样,如果,那么我们可以有效地让。

在算法中,我们在更新每个si时,为潜在的非零系数和相应的符号保持一个有效集合=0, 。然后,系统地搜索最小化目标函数的最优有效集合和系数符号(9)。 在每个激活步骤中,算法使用违反最优条件最大的零值。 在每个步骤中,算法在一系列“特征符号步骤”中进行,给定活动集和符号的当前值,它为所得到的无约束QP计算解析解; 那么它使用当前解决方案之间的有效离散线搜索更新解决方案,活动集和符号。 算法1描述了学习图形正则化稀疏码矩阵S的详细算法程序。

C.学习词典B

在本节中,我们将描述学习字典B的方法,同时确定系数矩阵S。 该问题成为二次约束的最小二乘问题

有许多解决这个问题的方法,如梯度下降与迭代投影。 在本文中,我们采用使用拉格朗日双重法的方法,其比梯度下降更有效。

设,并且是与第i个不等式约束相关联的拉格朗日乘数,则(13)的拉格朗日双函数由

令是所有i的对角线条目的k * k对角矩阵。 那么可以写成

最优解B可以通过使(15)的等级导数等于零来获得

然后,我们让

将(17)代入(15)中,拉格朗日双重功能变为

这导致以下拉格朗日双功能:

这个问题可以通过使用Newtons方法或共轭梯度来解决。 令成为最优解,则是最优的。不能保证不可逆。 在实际中,可以使用伪逆值,而不是直接计算逆值。

  1. 实验结果

在本节中,我们介绍了公开图像数据集的图像分类和聚类实验。

对于每个实验,我们描述了数据集的信息和详细设置。所有的实验结果表明了我们所提出的算法的有效性。

  1. 图像分类

对于图像分类,我们对基准USPS手写数字数据集进行了实验. USPS由7291个训练图像和在2007年设计的大小为16 16的测试图像组成。每个图像由256维向量表示。

重要的是要注意,我们需要计算分类任务中新数据点的稀疏表示。 令表示训练数据矩阵,表示kNN图矩阵。 我们可以使用GraphSC来学习字典矩阵和系数矩阵。 为了计算新的数据点Xt的稀疏表示,我们需要修改图形矩阵W.为了不失一般性,让。可以构造为

其中是X中Xt的最邻近权重向量。具体来说,Wi = 1,当且仅当训练集中的Xi是Xt中最邻近的邻居之一。 现在我们可以得到包含新的数据点的新的拉普拉斯矩阵。通过求解优化问题(9)(固定B和S),我们能够计算新数据点Xt的稀疏表示Si。

我们执行五次交叉验证,以找出原始稀疏编码(SC)的最佳参数对,后者将在GraphSC中使用。 对于稀疏参数,字典d的大小的测试值为{32,64,128,256,512}。 此外,GraphSC中还有两个参数,正则化参数alpha;和最近邻居数k。 在固定最佳参数对(d,beta;)的同时,我们执行五次交叉验证以找出(alpha;,k)的最佳对。 alpha;的测试值为{0,01,0.1,1,10,100},对于k {2,3,4,5,6,7,8,9,10}。 我们保留GraphSC的最佳参数对。 对于图像分类任务,我们训练线

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[138120],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。